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“我 认为 本 书 之 所 以 领先 群 伦 、 独 一 无 二 ， 是 源 于 其 对 细节 的 注重 和 对 历史 的 关注 。 书 中 介绍 了 计 
算 机 网 络 的 背景 知识 ， 并 提供 了 解决 不 断 演变 的 网 络 问题 的 各 种 方法 。 本 书 一 直 在 不 懈 努 力 以 获得 精确 
的 和 丛生 和 探索 剩余 的 问题 域 。 对 于 致力 于 完善 和 保护 互联 网 运营 或 探究 解决 长 期 存在 问题 的 可 选 方案 的 
工程 是， 本 书 提供 的 见解 将 是 无 价 的 ”作者 对 当今 互联 网 技术 的 全 面 阐述 和 透彻 分 析 是 值得 称赞 的 


— Vint Cerf 


XM AI A. KRKI. CERE d aa Ho A s KRI vi HY 


《TCP/IP 详 解 》 是 已 故 网 络 专家 、 著 名 技术 作家 W. Richard Stevens 的 传世 之 作 ， 内 容 详 尽 且 具 权 
威 性 ， 被 誉 为 TCP/IP 领 域 的 不 朽 名 著 。 本 书 是 《TCP/IP 详 解 》 三 卷 本 的 第 2 卷 ， 重 点 关注 TCP/IP 的 实现 
问题 。 书 中 介绍 了 一 个 实际 的 TCP/IP 实 现 ， 并 给 出 了 这 一 实现 的 完整 源 代 码 ， 大 约 有 15 000 行 C 代 码 。 
此 外 ， 几 乎 每 章 都 提供 精 选 的 习题 ， 并 在 附录 中 提供 了 部 分 习题 的 答案 。 


一 卷 要 求 读 者 对 TCP/IP 的 工作 原理 以 及 操作 系统 原理 有 初步 的 了 解 。 对 TCP/IP 不 是 很 熟悉 的 读者 
应 先 阅 读 《TCP/IP 详 解 》 的 第 1 卷 ， 该 书 对 TCP/IP 协 议 族 有 比较 透彻 的 描述 。 


《TCP/IP 详 解 》 对 于 网 络 应 用 的 开发 人 员 、 网 络 管理 员 以 及 任何 想 了 解 TCP/IP 运 行 原理 的 人 员 来 
说 ， 都 是 极 好 的 权威 参考 书 。 无 论 是 初学 者 还 是 功底 深厚 的 网 络 领域 高 手 ， 这 套 书 都 应 是 案头 必 备 。 
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出 版 者 的 话 


文艺 复兴 以 来 ,源远流长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 非 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 证 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 壕 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson、 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
500 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www.hzbook.com 


电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010 ) 88379604 





| 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 


邮政 编码 ，100037 华章 科技 图 书 出 版 中 心 
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我 们 愿意 向 广大 的 读者 推荐 W. Richard Stevens% T TCP/IPRS 2$ 8t E l/E (36325) RJ rR EAR, 
本 书 是 其 中 的 第 2 卷 : (TCP/IP 252: 实现 》。 

大 家 知道 ，TCP/IP 已 成 为 计算 机 网 络 事实 上 的 标准 。 在 关于 TCP/IP 的 论著 中 ， 最 有 影响 
的 就 是 两 部 著作 。 一 部 是 Douglas E. Comer 写 的 《用 TCP/IP 进 行 网 际 互 连 》， 一 套 共 3 卷 ， 而 另 
一 部 就 是 Stevens 写 的 这 3 卷 书 。 这 两 套 巨 著 都 很 有 名 ， 各 有 其 特点 。 无 论 是 从 事 计算 机 网 络 教 
学 的 教师 还 是 进行 计算 机 网 络 科 研 的 技术 人 员 ， 这 两 套 书 都 应 当 是 必 读 的 。 

这 套 书 的 特点 是 内 容 丰 富 ， 概 念 清楚 且 准 确 ， 讲 解 详 细 ， 例 子 很 多 。 作 者 在 书 中 举 出 的 
所 有 例子 均 在 作者 安装 的 计算 机 网 络 上 做 过 实际 验证 。 各 章 都 留 有 一 定数 量 的 习题 。 在 附录 和 A 
作者 对 部 分 习题 给 出 了 解答 ， 而 且 书 后 还 给 出 了 许多 经 典 的 参考 文献 ， 并 一 一 写 出 评注 。 

第 2 卷 是 第 1 卷 的 继续 和 座 入 。 读 者 在 学 习 这 一 卷 时 ， 应 当先 具备 第 1 卷 所 兽 述 的 关于 
TCP/IP 的 基本 知识 。 本 卷 的 特点 是 使 用 大 量 的 源 代码 来 讲述 TCP/IP 协 议 族 中 的 各 协议 是 怎样 
实现 的 。 这 些 内 容 对 于 编写 TCP/IP 网 络 应 用 程序 的 程序 员 和 人 负责 维护 基于 TCP/IP 协 议 的 计算 
机 网 络 的 系统 管理 员 来 说 ， 应 当 是 必 读 的 。 

参加 本 书 翻译 的 有 : 谢 钧 (序言 和 第 1~7 章 )， 音 慧 (第 8~14 章 ， 第 22~23 章 )， 吴 礼 发 (第 
15~17 章 )， 端 义 峰 (第 18~19 章 )， 霄 光辉 (第 20~21 章 )， 陆 雪 莹 (第 24~32 章 以 及 全 部 附 永 )。 全 
书 由 谢 希 仁 教授 审 校 。 

限于 水 平 ， 翻 译 中 不 受 或 错误 之 处 在 所 难免 ， 敬 请 广大 读者 批评 指正 。 
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简介 


本 书 描述 并 给 出 了 TCP/IP 实 现 引 用 的 源 代码 一 一 加 利 福 尼 亚 大 学 伯克利 分 校 的 计算 机 系统 
研究 组 (CSRG) 的 实现 。 历 史上 ， 它 曾 以 4.x BSD 系 统 (伯克利 软件 发 行 ) 发 布 。 这 个 实现 第 一 次 
发 布 是 在 1982 年 ， 经 过 了 很 多 重大 的 改变 和 改进 ， 并 且 其 中 很 多 特性 被 引入 到 其 他 Unix 和 非 
Unix 系 统 中 。 这 不 是 一 个 没有 多 大 意义 的 实现 ， 而 是 天 天 在 世界 上 成 千 上 万 个 系统 上 运行 的 
TCP/IP 实 现 的 基础 。 这 个 实现 还 提供 路 由 功能 ， 显 示 主 机 和 路 由 器 的 TCP/P 实 现 间 的 区 别 。 

我 们 描述 这 个 实现 并 给 4 出 TCP/P 内 核实 现 的 完整 源 代码 ， 大 约 15 000 行 C 代 码 。 在 本 文中 
描述 的 是 4.4BSD-Lite 版 本 。 这 个 代码 在 1994 年 4 月 公开 ， 包 含 很 多 增强 的 联网 部 分 ， 它 们 被 
添加 到 1988 年 的 4.3BSD Tahoe 版 、1990 年 的 4.3BSD Reno 版 和 1993 年 的 4.4BSD 版 (附录 B 介 绍 
了 如 何 获得 这 些 源 代码 )。4.4BSD 版 提供 最 新 的 TCP/IP 特 征 ， 如 多 播 和 长 肥 管 道 支持 (用 于 高 
宽带 、 长 时 延 路 径 )。 图 1-1 提 供 了 伯克利 联网 代码 的 各 种 版 本 的 其 他 细 市 。 

本 书 适用 于 希望 理解 TCP/IP 的 实现 细节 的 广大 读者 : 编写 网 络 应 用 的 程序 员 ， 负 贡 利 用 
TCP/IP 维 护 计算 机 系统 和 网 络 的 系统 管理 员 ， 以 及 任何 想 理 解 大 块 的 重要 代码 是 如 何 满 足 一 
个 真实 操作 系统 的 程序 员 。 


本 书 的 组 织 结构 
下 图 显示 的 是 所 涉及 的 各 种 协议 和 子 系统 。 每 个 方 框 旁 的 斜体 数字 指出 方 框 中 的 论题 在 
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3413 HH BI IS]. EBUZI ZEE ETE TCP/IPEMUK. MON RER, AEWA, 
ICMP、IGMP、fIP 路 由 选择 和 多 播 路 由 选择 )， 接 下 来 是 插口 ” 层 ， 最 后 以 运输 层 (UDP、TCP 
和 原始 IP) 结 束 。 


预期 的 读者 


本 书 假设 读者 对 TCP/IP 的 工作 原理 有 基本 的 理解 。 不 熟悉 TCP/IP 的 读者 应 该 参考 本 人 套 书 
中 的 第 1 卷 [Stevens 1994]， 那 本 书 对 TCP/IP 协 议 组 进行 了 全 面 的 描述 。 在 本 书 中 对 第 1 卷 的 引 
用 均 为 郑 1。 本 书 还 假设 读者 对 操作 系统 原理 有 基本 的 理解 。 

我 们 用 数据 结构 方法 来 描述 这 个 协议 的 实现 。 即 ， 除 了 给 出 源 代码 外 ， 每 章 还 包括 产 代 
码 使 用 和 维护 的 数据 结构 的 图 与 说 明 。 我 们 显示 了 这 些 数据 结构 是 如 何 适用 于 TCP/IP 和 内 核 
使 用 的 其 他 数据 结构 的 。 通 篇 使 用 大 量 的 图 表 一 一 超过 250 个 图 表 。 

这 种 数据 结构 方法 允许 读者 采用 各 种 方式 使 用 本 书 。 对 所 有 实现 细节 感 兴趣 的 读者 可 以 
从 头 到 尾 赔 读 全 书 ， 看 完 所 有 的 源 代 码 。 可 能 只 想 理 解 协 议 的 实现 细 市 的 其 他 读者 ， 可 通过 
理解 所 有 数据 结构 并 阅读 所 有 文字 达到 目的 ， 而 不 必 看 完 所 有 的 源 代码 。 

我 们 预料 很 多 读者 会 对 书 中 的 特定 部 分 感 兴 趣 并 且 想 直接 进入 那 一 章 。 因 此 ， 通 篇 提供 
了 很 多 同 前 或 同 后 的 引用 ， 沿 着 完整 的 索引 ， 人 允许 单独 学 习 某 一 章 。 在 各 章 的 结尾 都 提供 了 
习题 ， 并 在 附录 A 中 给 出 大 多 数 习 题 的 答案 作为 自学 的 参考 ， 使 本 书 能 发 挥 最 大 的 作用 。 


源 代码 版 权 


本 书 中 出 现 的 所 有 代码 ， 除 了 图 1-2 和 图 8-27， 都 是 来 自 4.4BSD-Lite 发 行 版 。 这 个 软件 是 
公开 的 ， 可 从 很 多 地 方 获得 (参见 附录 B)。 
源 代码 的 所 有 部 分 都 包含 下 列 版 权 声 明 。 


Ni 
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Copyright (c) 1982, 1986, 1988, 1990, 1993, 1994 
The Regents of the University of California. All rights reserved. 


Redistribution and use in source and binary forms, with or without 

modification, are permitted provided that the following conditions 

are met: 

1. Redistributions of source code must retain the above copyright 
notice, this list of conditions and the following disclaimer. 

2. Redistributions in binary form must reproduce the above copyright 
notice, this list of conditions and the following disclaimer in the 
documentation and/or other materials provided with the distribution. 

3. All advertising materials mentioning features or use of this software 
must display the following acknowledgement: 

This product includes software developed by the University of 
California, Berkeley and its contributors. 

4. Neither the name of the University nor the names of its contributors 
may be used to endorse or promote products derived from this software 
without specific prior written permission. 


THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS "''AS IS'' AND 
ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT- LIMITED TO, THE 
IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE 
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O “插口 ”一 词 对 应 的 原文 为 socket， 现 在 更 常用 的 译 法 为 “ 套 接 字 ”。 一 一 编辑 注 
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* ARE DISCLAIMED. IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE 

* FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL 
* DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS 

* OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) 

* HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT 
* LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY 
* OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF 

* SUCH DAMAGE. 


Gary R.Wright 

米 德 尔 顿 ， 康 涅 狄 格 
W. Richard Stevens 
图 森 ， 亚 利 桑 那 
1994 年 11 月 
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1.4 引言 


本 章 介 绍 伯克利 (Berkeley) 联 网 程序 代码 。 开 始 我 们 先 看 一 段 源 代码 并 介绍 一 些 通 篇 要 用 
的 印刷 约定 。 对 各 种 不 同 代码 版 本 的 简单 历史 回顾 让 我 们 可 以 看 到 本 书 中 的 源 代码 处 于 什么 
位 置 。 接 下 来 介绍 了 两 种 主要 的 编程 接口 ， 它 们 在 Unix 与 非 Unix 系 统 中 用 于 编写 TCP/IP 协 议 。 

然后 我 们 介绍 一 个 简单 的 用 户 程 序 ， 它 发 送 一 个 UDP 数 据 报 给 位 于 局 域 网 中 男 一 台 主 机 
上 的 日 期 /时 间 服 务 器 ， 服 务 器 返回 一 个 UDP 数据 报 ， 其 中 包含 服务 恬 的 日 期 和 时 间 的 ASCII 
码 字符 串 。 这 个 进程 发 送 的 数据 报 经 过 所 有 的 协议 栈 到 达 设 备 驱 动 器 ,来自 服务 器 的 应 答 从 
下 同上 经 过 所 有 协议 栈 到 达 这 个 进程 。 通 过 这 个 例子 的 这 些 细 市 介绍 了 很 多 核心 数据 结构 和 
概念 ， 这 些 数 据 结构 和 概念 在 后 面 的 章节 中 还 要 详细 说 明 。 

本 章 的 最 后 介绍 了 在 本 书 中 各 源 代 码 的 组 织 ， 并 显示 了 联网 代码 在 整个 组 织 中 的 位 置 。 


1.2 源 代 码 表示 


不 考虑 主题 ， 列 举 15 000 行 源 代 码 本 身 就 是 一 件 难事 。 下 面 是 所 有 源 代码 都 使 用 的 文本 
格式 .: 


381 void ER 
382 tcp quench(inp, errno) 
383 struct inpcb *inp; 
384 int errno; 
385 ( 
386 struct tcpcb *tp - intotcpcb(inp); 
387 if (tp) 
388 tp-»snd cwnd = tp-»t maxseg; 
389 ) 
tcp subr.c 


1.2.1 将 拥塞 窗口 设置 为 1 


387-388 这 是 文件 tcp_subr.c 中 的 函数 tcp_quench。 这 些 产 文件 名 3| 用 4.4BSD-Lite 发 
布 的 文件 ， 它 们 在 1.13 布 中 讨论 。 每 个 非 空 白 行 都 有 编号 。 正 文 所 描述 的 代码 的 起 始 和 结束 
位 置 的 行 号 记 于 行 开始 处 ， 如 本 段 所 示 。 有 时 在 段 前 有 一 个 简短 的 描述 性 题 头 ， 对 所 描述 的 
代码 提供 一 个 概述 。 

这 些 源 代 码 同 4.4BSD-Lite 发 行 版 一 样 ， 偶 尔 包含 一 些 错误 ， 在 遇 到 时 我 们 会 提出 来 并 加 
以 讨论 ， 偶 尔 还 包括 一 些 原 作者 的 编者 评论 。 这 些 代 码 已 通过 了 GNU 缩 进程 序 的 运行 ， 使 它 
们 从 版 面 上 看 起 来 具有 一 致 性 。 制 表 符 的 位 置 被 设置 成 4 个 栏 的 界线 使 得 这 些 行 在 一 个 页 面 中 
显示 得 很 合适 。 在 定义 常量 时 ， 有 些 #ifdef 语 句 和 它们 的 对 应 语句 #endif 被 删 去 (如 : 
GATEWAY 和 MROUTING， 因 为 我 们 假设 系统 作为 一 个 路 由 如 或 多 播 路 由 器 )。 所 有 register 
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说 明 符 被 删 去 了 。 有 些 地方 加 了 一 些 注 释 ,- 并 且 对 一 些 和 注释 中 的 印刷 错误 做 了 修改 ， 但 代码 
的 其 他 部 分 被 保留 下 来 。 

这 些 函 数 大 小 不 一 ， 从 几 行 (如 前 面 的 tcp_quench) 到 最 大 1100 行 (tcp_input)。 超 过 
40 行 的 函数 一 般 被 分 成 段 ， 一 段 一 段 地 显示 。 虽 然 尽 量 使 代码 和 相应 的 描述 文字 放 在 同一 页 
或 对 开 的 两 页 上 ， 但 为 了 市 约 版 面 ， 不 可 能 完全 做 到 这 样 。 

本 书 中 有 很 多 对 其 他 图 数 的 交叉 引用 。 为 了 避免 给 每 个 引用 都 添加 一 个 图 号 和 页 码 ， 文 
前 插页 中 有 一 个 本 书 中 描述 的 所 有 函数 和 宏 的 字母 交 又 引用 表 和 描述 的 起 始 页 码 。 由 于 本 书 
的 源 代码 来 自 公 开 的 4.4BSD_Lite 版 ， 因 此 很 容易 获得 它 的 一 个 拷贝 : 附录 B 详 细 说 明了 各 种 
方法 。 当 你 阅读 文章 时 ， 有 时 也 能 帮助 你 搜索 一 个 在 线 拷贝 [例如 Unix 程 序 grep(1)]。 

描述 每 个 源 代码 模块 的 各 章 通 常 以 所 讨论 的 源 文 件 的 列表 开始 ， 接 着 是 全 局 变量 、 代 码 
维护 的 相关 统计 以 及 一 个 实际 系统 的 一 些 例子 统计 ， 最 后 是 与 所 描述 协议 相关 的 SNMP 变 量 。 
全 局 变量 的 定义 通常 跨越 各 种 源 文件 和 头 文件 ， 因 此 我 们 将 它们 集中 到 的 一 个 表 中 以 便于 参 
考 。 这 样 显示 所 有 的 统计 ， 人 简化 了 后 面 当 统计 更 新 时 对 代码 的 讨论 。 卷 1 的 第 25 章 提供 了 
SNMP 的 所 有 细 市 。 我 们 在 本 文中 关心 的 是 由 内 核 中 的 TCP/IP 例 程 维 护 的 、 支 持 在 系统 上 运 
行 的 SNMP 代 理 的 信息 。 


1.2.2 印刷 约定 


通 篇 的 图 中 ， 我 们 使 用 等 宽 字 体 表示 变量 名 和 结构 成 员 名 (m_next)， 用 和 斜体 等 宽 字体 表 
示 定 义 的 第 量 (NULL) 或 第 量 的 值 (512)， 用 带 花 括号 的 粗 体 等 完 字 体 表 示 结 构 名 称 (mbuf1{})。 


mbuf{} 


next |NLL 
512 


在 表 中 ， 我 们 使 用 等 宽 字 体 表示 变量 名 称 和 结构 成 员 名 称 ， 用 斜体 等 宽 字体 表示 定义 的 


通常 用 这 种 方式 显示 所 有 的 #define 符 号 。 如 果 必 要 ， 我 们 显示 符号 的 值 (M_BCAST 的 

值 无 关 紧 要 ) 并 且 所 列 符号 按 字母 排序 ， 除 非 对 顺序 有 特殊 要 求 。 
通 篇 我 们 会 使 用 这 种 缩 进 格式 的 附加 说 明 来 描述 历史 观点 或 实现 细节 。 

我 们 用 有 一 个 数字 在 圆 括号 里 的 命令 名 称 来 表示 Unix 命 令 ， 如 gzrep(1)。 圆 括号 中 的 数字 
是 4.4BSD 手 册 “manual page” 中 此 命令 的 市 号 ， 在 那里 可 以 找到 其 他 的 信息 。 
1.3 历史 

本 书 讨论 加 利 福 尼 亚 大 学 伯克利 分 校 计 算 机 系统 研究 组 的 TCP/IP 实 现 的 常用 引用 。 历 史 
上 ， 它 曾 以 4.x BSD 系 统 ( 伯 克利 软件 发 行 ) 和 “BSD 联 网 版 本 ”发 行 。 这 个 源 代 码 是 很 多 其 他 
实现 的 起 点 ， 不 论 是 Unix 或 非 Unix 操 作 系 统 。 

图 1-1 显 示 了 各 种 BSD 版 本 的 年 表 ， 包 括 重 要 的 TCP/IP 特 征 。 显 示 在 左边 的 版 本 是 公开 可 


用 产 代 码 版 ， 它 包括 所 有 联网 代码 : 协议 本 身 、 联 网 接口 的 内 核 例 程 及 很 多 应 用 和 实用 程序 
(如 Telnet 和 FTP)。 


4.2BSD (1983) 
第 一 次 被 广泛 应 用 的 
TCP/IP 版 本 


4.3BSD (1996) 
改进 了 TCP 性 能 


4.3BSD Tahoe (1988) 


慢 启动 ， 防 拥塞 ， 快 束 
MEMBRE LS Lc Ef 
BSD 联 网 软件 i 


版 本 1.0(1989): Net/1 4.3BSD Reno (1990) 


快速 恢复 ，TCP 首 部 预 


测 ，SLIP 首 部 压缩 ， 路 
由 表 改 变 
BSD 联 网 软件 i 


2.0(1991); Net/2 
BEZOS. No 4.4BSD(1993) 


多 播 ， 长 肥 管 道 的 修改 


4.4BSD-Lite(1994) 
在 正文 中 用 Net/3 表 示 


图 1-1 带 有 重要 TCP/IP 特 征 的 各 种 BSD 版 本 


虽然 本 文 描述 的 软件 的 官方 名 称 为 4.4BSD-Lite 发 行 软件 ， 但 我 们 简单 地 称 它 为 NeV3。 
虽然 源 代码 由 U. C. Berkeley 发 行 并 被 称 为 伯克利 软件 发 行 ， 但 TCP/IP 代 码 确 实 是 融合 了 
各 种 研究 人 员 的 工作 ， 包 括 伯克利 和 其 他 地 区 的 研究 人 员 ，。 
通 篇 我 们 会 使 用 源 于 伯克利 实现 的 术语 来 谈 及 各 厂商 的 实现 ， 如 SunOS 4.x, System V 版 
本 4(SVR4) 和 AIX 3.2， 它 们 的 TCP/IP 代 码 最 初 都 是 从 伯克利 源 代 码 发 展 而 来 的 。 这 些 实现 有 
很 多 共同 之 处 ， 通 常 包括 同样 的 错误 | 
在 图 1-1 中 没有 显示 的 伯克利 联网 代码 的 第 1 版 实际 上 是 1982 年 的 4.1cBSD ， 但 是 
广泛 发 布 的 是 1983 年 的 版 本 4.2BSD， 
在 4.1cBSD 之 前 的 BSD 版 本 使 用 的 TCP/IP 实 现 是 由 Bolt Beranek and 
Newman(BBN) 的 Rob Gurwitz 和 Jack Haverty 开 发 的 。[Salus 1994] 的 第 18 章 提供 了 一 
些 合并 到 4.2BSD 中 的 BBN 代 码 细节 。 其 他 对 伯克利 TCP/IP 代 码 有 影响 的 实现 是 由 
Ballistics 研 究 室 的 Mike Muuss 为 PDP-11 开 发 的 TCP/IP 实 现 。 
描述 联网 代码 从 一 个 版 本 到 下 一 个 版 本 的 变化 的 文 相 有限 。[Karels and 
McKusick 1986] 描 述 了 从 4.2BSD 到 4.3BSD 的 变化 ， 并 且 [Jacobson 1990d] 描 述 了 从 
4.3BSD Tahoe 到 4.3BSD Reno 的 变化 。 


1.4 应 用 编程 接口 
在 互联 网 协议 中 两 种 常用 的 应 用 编程 接口 (APD) 是 插口 (sockeD 和 TLI( 运 输 层 接口 )。 前 者 
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有 了 时 称 为 伯克利 插口 (Berkeley socket) ， 因 为 它 被 广泛 地 发 布 于 4.2BSD 系 统 中 ( 见 图 1-1)。 但 它 
已 被 移植 到 很 多 非 BSD Unix 系 统 和 很 多 非 Unix 系 统 中 。 后 者 最 初 是 由 AT&T 开 发 的 ， 由 于 被 
X/Open 承 认 ， 有 时 叫 作 XTI(X/Open 传 输 接 口 )。X/Open 是 一 个 计算 机 厂商 的 国际 组 织 ， 它 制 
定 自己 的 标准 。XTI 是 TLI 的 一 个 有 效 超 集 。 

虽然 本 文 不 是 一 本 程序 设计 书 ， 但 既然 在 Net/3( 和 所 有 BSD 版 本 ) 中 应 用 程序 使 用 插口 来 
访问 TCP/IP， 我 们 还 是 说 明 一 下 插口 接口 。 在 各 种 非 Unix 系 统 中 也 实现 了 插口 接口 。 插 口 和 
TLI 的 编程 细节 在 [Stevens 1990] 中 可 以 找到 。 

SVR4 也 为 应 用 编程 提供 了 一 组 插口 API， 在 实现 上 与 本 文中 列举 的 有 所 不 同 。 在 SVR4 
中 的 插口 基于 “ 流 ” 子 系统 ， 这 种 子 系统 在 [Rago 1993] 中 有 所 说 明 。 


1.5 程序 示例 
在 本 章 我 们 用 一 个 简单 的 C 程 序 (图 1-2) 来 介绍 一 些 BSD 网 络 实现 的 特点 。 


1 

2 * Send a UDP datagram to the daytime server on some other host, 
3 * read the reply, and print the time and date on the server. 
4 


9*4 

5 #include «sys/types.h» 

6 include «sys/socket.h» 

7 *include «netinet/in.h» 

8 include «arpa/inet.h» 

9 include «stdio.h» 

10 #include «stdlib.h» 

11 #include «string.h» 

12 #define BUFFSIZE 150 /* arbitrary size */ 
13 Ant 

14 main() 

is 1 

16 struct sockaddr in serv; 

17 char buff[BUFFSIZE]; 

18 int sockfd, n; 

19 if ((sockfd = socket(PF INET, SOCK DGRAM, 0)) < 0) 
20 err sys("socket error"); 

21 bzero((char *) &serv, sizeof(serv)); 

22 serv.sin family - AF INET; 

23 serv.sin addr.s addr - inet, addr("140.252.1.32"); 
24 serv.sin port - htons(13); 

25 if (sendto(sockfd, buff, BUFFSIZE, 0, 
26 (struct sockaddr *) &serv, sizeof(serv)) !- BUFFSIZE) 
27 err sys("sendto error"); 
28 if ((n = recvfrom(sockfd, buff, BUFFSIZE, 0, 
29 (struct sockaddr *) NULL, (int *) NULL)) « 2) 
30 err sys("recvfrom error"); 
31 buff[n - 2] = 0; /* null terminate */ 
32 printf("$sWMn", buff); i 
33 exit(0); 
34 } 





图 1-2 程序 示例 : 发 送 一 个 数据 报 给 UDP 日 期 /时 间 服 务 器 并 读 取 一 个 应 答 


RIS BER i 5 


1. 创建 一 个 数据 报 插口 
19-20 socket 国 数 创建 了 一 个 UDP 插口 ， 并 且 给 进程 返回 一 个 保存 在 变量 sockfd 中 的 搓 
述 符 。 差 错 处 理 函 数 err_sys 在 [Stevens 1992] 的 附录 B.2 中 给 出 。 它 接收 任意 数量 的 参数 ， 
并 用 vsprintf 对 它们 格式 化 ， 将 系统 调用 产生 的 errno 值 对 应 的 Unix 错 误 信 息 打印 出 来 ， 
并 中 断 进程 。 
我 们 使 用 术语 “插口 ”时 有 三 种 不 同 的 方式 : (1) 为 4.2BSD 开 发 的 、 程 序 用 来 访 
问 网络 协 议 的 API 通 常 叫 “插口 API ”或 者 就 叫 “插口 接口 ”; (2) socket 是 插口 
API 中 的 一 个 函数 的 名 字 ; (3) 我 们 把 调用 socket 创 建 的 端点 叫 作 插 口 ， 如 注释 “ 创 
建 一 个 数据 报 插口 ”。 
但 是 还 有 一 些 地 方 也 使 用 这 个 术语 : (4)socket 了 有 函数 的 返回 值 叫 播 口 描述 符 
或 者 就 叫 “插口 ”; (5) 在 内 核 中 的 伯克利 联网 协议 实现 叫 “ 棱 口 实现 ， 相 较 于 其 他 
系统 如 System V 的 流 实 现 ; (6)IP 地 址 和 和 病 口 号 的 组 合 叫 “插口 ，IP 地 址 和 和 盖 口 号 对 
叫 “ 插 口 对 。 所 幸 的 是 引用 哪 一 种 术语 金 义 是 很 明显 的 。 


2. 将 服务 器 地 址 放 到 结构 sockaddr in 中 
21-24 互联 网 插口 地 址 结构 (sockaddr in) 中 存放 日 期 /时 间 服 务 器 的 IP 地 址 (140.252.1.32) 和 
端口 号 (13)。 大 多 数 TCP/P 实 现 都 提供 标准 的 日 期 /时 间 服 务 器 ， 它 的 端口 号 为 13 [Stevens 1994, 
图 1-9]。 我 们 对 服务 器 主机 的 选择 是 随意 的 一 一 直接 选择 了 提供 此 服务 的 本 地 主机 (图 1-17)。 

函数 ijnet_addr 将 一 个 点 分 十 进 制 表示 的 IP 地 址 的 ASCII 字 符 串 转换 成 网 络 字 节 序 的 32 
位 二 进 制 整数 (Internet 协 议 族 的 网 络 字 市 序 采 用 大 端 模 式 )。 函 数 htons 把 一 个 主机 字 市 序 的 
短 整 数 ( 可 能 采用 小 端 模 式 ) 转 换 成 网 络 字 节 序 ( 大 端 模 式 )。 在 Sparc 这 种 系统 中 ， 整 数 采 用 大 端 
模式 ，htons 一 般 是 一 个 什么 也 不 做 的 宏 。 但 是 在 采用 小 端 模 式 的 80386 上 的 BSD/386 系 统 中 ， 
htons 可 能 是 一 个 宏 或 者 是 一 个 函数 ， 用 来 完成 一 个 16 位 整数 中 的 两 个 字 节 的 交换 。 

3. 发 送 数 据 报 给 服务 器 
25-27 程序 调用 sendto 发 送 一 个 150 字 节 的 数据 报 给 服务 器 。 因 为 是 运行 时 栈 中 分 配 的 未 
初始 化 数组 ，150 字 节 的 缓存 内 容 是 不 确定 的 。 但 没有 关系 ， 因 为 服务 器 根本 就 不 看 它 收 到 的 
报 文 的 内 容 。 当 服务 器 收 到 一 个 报 文 时 ， 就 发 送 一 个 应 答 给 客户 端 。 应 答 中 包含 服务 器 以 可 
读 格 式 表示 的 当前 时 间 和 日 期 。 

我 们 选择 的 150 字 节 的 客户 数据 报 是 随意 的 。 我 们 有 意 选 择 一 个 报 文 长 度 在 100~208 之 间 
的 值 ， 以 便 说 明 在 本 章 的 后 面 要 提 到 的 mbuf 链 表 的 使 用 。 为 了 避免 拥塞 ， 在 以太 网 中 ， 我 们 
希望 长 度 要 小 于 1472。 

4. 读 取 从 服务 器 返回 的 数据 报 
28-32 程序 通过 调用 recvfrom 来 读 取 从 服务 器 返回 的 数据 报 。Unix 服 务 絮 典型 地 返回 一 
个 如 下 格式 的 26 字 节 字 符 串 

Sat Dec 11 11:28:05 1993\r\n 
\r 是 一 个 ASCII 回 车 符 ，\n 是 一 个 ASCII 换 行 符 。 我 们 的 程序 将 回 车 符 赫 换 成 一 个 空 字 市 ， 
然后 调用 printf 输 出 结果 。 | 

在 本 章 和 下 一 章 我 们 分 析 国 数 socket 、sendato 和 zecvfzrom 的 实现 时 ， 要 审视 这 个 例 
子 的 一 些 细节 部 分 。 
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1.6 系统 调用 和 库 函 数 


所 有 的 操作 系统 都 提供 服务 访问 点 ， 程 序 可 以 通过 它们 请 求 内 核 中 的 服务 。 各 种 Unix 都 
提供 精心 定义 的 有 限 个 内 核 入 口 点 ， 即 系统 调用 。 我 们 不 能 改变 系统 调用 ， 除 非 我 们 有 内 核 
的 源 代 码 。Unix 第 7 版 提供 了 大 约 50 个 系统 调用 ，4.4BSD 提 供 了 大 约 135 个 ， 而 SVR4 大 约 有 
1207, 

在 《Unix 程 序 员 手 册 》 第 2 节 中 有 系统 调用 接口 的 文档 。 它 是 以 C 语 言 定义 的 ， 在 任何 给 
定 的 系统 中 无 须 考 虑 系统 调用 是 如 何 被 调用 的 。 

在 各 种 Unix 系 统 中 ， 每 个 系统 调用 在 标准 C 函 数 库 中 都 有 一 个 相同 名 字 的 函数 。 一 个 应 用 
程序 用 标准 C 的 调用 序列 来 调用 此 函数 。 这 个 函数 再 调用 相应 的 内 核 服务 ， 所 使 用 的 技术 依赖 
于 所 在 系统 。 例 如 ， 函 数 可 能 把 一 个 或 多 个 C 参 数 放 到 通用 寄存 器 中 ， 并 执行 几 条 机 器 指令 产 
生 一 个 软件 中 断 进 入 内 核 。 对 于 我 们 来 说 ， 可 以 把 系统 调用 看 成 C 函 数 。 

在 《Unix 程 序 员 手 册 》 的 第 3 节 中 为 程序 员 定义 了 一 般 用 途 的 函数 。 虽 然 这 些 函 数 可 能 调用 一 
个 或 多 个 内 核 系 统 调用 ,但 没有 进入 内 核 的 入 口 点 。 如 函数 printf 可 能 调用 了 系统 调用 write 去 
执行 输出 ， 而 函数 strcpy( 复 制 一 个 串 ) 和 atoi( 将 ASCII 码 转换 成 整数 ) 完 全 不 涉及 操作 系统 。 

从 实现 者 的 角度 来 看 ， 系 统 调用 和 库 函 数 有 着 根本 的 区 别 ， 但 在 用 户 看 来 区 别 并 不 大 。 
例如 ， 在 4.4BSD 中 我 们 运行 图 1-2 中 的 程序 。 程 序 调用 了 3 个 函数 socket、sendto 和 
recvfrom， 和 每 个 冰 数 最 终 调用 了 内 核 中 一 个 同样 名 称 的 函数 。 在 本 书 的 后 面 我 们 可 以 看 到 
这 3 个 系统 调用 的 BSD 内 核实 现 。 

如 果 我 们 在 SYR4 中 运行 这 个 程序 ， 在 那里 ， 用 户 库 中 的 插口 函数 调用 “ 流 ” 子 系统 ， 那 
么 3 个 函数 同 内 核 的 相互 作用 是 完全 不 同 的 。 在 SVR4 中 对 socket 的 调用 最 终 会 调用 内 核 的 
open 系 统 调用 ， 操 作文 件 /dev/udp 并 将 流 模块 sockmod 放 置 到 结果 流 。 调 用 sendto 导 致 
一 个 putmsg 系 统 调用 ， 而 调用 recvfrom 导 致 一 个 getmsg 系 统 调用 。 这 些 SVR4 的 细 市 在 
本 书 中 并 不 重要 ， 我 们 仅仅 想 指出 的 是 : 实现 可 能 不 同 但 都 提供 相同 的 API 给 应 用 程序 。 

最 后 ， 从 一 个 版 本 到 下 一 个 版 本 的 实现 技术 可 能 会 改变 。 例 如 ， 在 Net/l 中 ，send 和 sendto 
是 分 别 用 内 核 系 统 调用 实现 的 。 但 在 NeW3 中 ，send 是 一 个 调用 系统 调用 sendto 的 库 函 数 : 


send(int s, char *msg, int len, int flags) 


( 


) 
用 库 函 数 实 现 send 的 好 处 是 仅 调 用 sendto，, 减少 了 系统 调用 的 个 数 和 内 核 代码 的 长 度 ， 缺 
点 是 由 于 多 调用 了 一 个 国 数 ， 增 加 了 进程 调用 send 的 开销 。 

因为 本 书 是 说 明 TCP/IP 的 伯克利 实现 ， 所 以 大 多 数 进程 调用 的 函数 (socket、bind. 
connect 等 ) 是 直接 由 内 核 系 统 调用 来 实现 的 。 


1.7 网 络 实现 概述 

Net/3 通 过 同时 支持 多 种 通信 协议 来 提供 通用 的 底层 基础 服务 。 的 确 ，4.4BSD 支 持 4 种 不 
同 的 通信 协议 族 : 

1) TCP/IP( 互 联网 协议 族 )， 本 书 的 主题 。 

2) XNS(Xerox 网 络 系统 )， 一 个 与 TCP/IP 相 似 的 协议 族 ， 在 20 世 纪 80 年 代 中 期 它 被 广泛 应 





return(sendto(s, msg, len, flags, (struct sockaddr *) NULL, 0)); 
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代码 ， 但 今天 已 很 少 使 用 这 个 协议 了 ， 并 且 很 多 使 用 伯克利 TCP/IP 代 码 的 三 商 把 XNS 代 码 删 
去 了 (这 样 就 不 需要 支持 它 了 )。 

3) OSI 协议 [Rose 1990, Piscitello and Chapin 1993]。 这 些 协 议 在 20 世 纪 80 年 代 是 作为 开 
放 系统 技术 的 最 终 目标 而 设计 的 ， 用 来 代替 所 有 其 他 通信 协议 。 在 20 世 纪 90 年 代 初 它 没 有 什 
么 吸引 力 ， 以 至 于 在 真正 的 网 络 中 很 少 使 用 它 ， 其 历史 地 位 有 待 进一步 确定 。 

4) Unix 域 协议 。 从 通信 协议 是 用 来 在 不 同 的 系统 之 间 交 换 信 息 的 意义 上 来 说 ， 它 还 不 算 
是 一 套 真正 的 协议 ,但 它 提 供 了 一 种 进程 间 通 信 (IPC) 的 形式 。 

相对 于 其 他 IPC， 例 如 System V 消 息 队 列 ， 在 同一 主机 上 两 个 进程 间 的 IPC 使 用 Unix 域 协 
议 的 好 处 是 Unix 域 协议 用 与 其他 三 种 协议 同样 的 API( 插 口 ) 访 问 。 男 一 方面 ， 消 息 队 列 和 大 多 
数 其 他 形式 IPC 的 API 与 插口 和 TLI 完 全 不 同 。 在 同一 主机 上 的 两 进程 间 的 IPC 使 用 网 络 API， 
更 容易 将 一 个 客 尸 /服务 器 应 用 程序 从 一 台 主 机 移植 到 多 台 主 机 上 。 在 Unix 域 中 提供 两 个 不 同 
的 协议 一 一 一 个 是 与 ITCP 相 似 的 可 靠 的 、 面 向 连接 的 字 节 流 协 议 ， 一 个 是 与 UDP 相似 的 不 可 
靠 的 、 无 连接 的 数据 报 协议 。 


虽然 Unix 域 协议 可 以 作为 一 种 同一 主机 上 两 进程 间 的 IPC， 但 也 可 以 用 TCP/IP 来 
完成 它们 之 则 的 通信 。 进 程 间 通信 并 不 要 求 使 用 在 不 同 的 主机 上 的 互联 网 协议 。 

内 核 中 的 联网 代码 组 织 成 三 层 ， 如 图 
1-3 所 示 。 在 图 的 右 侧 我 们 注 明 了 OSI 参 考 
模型 [Piscitello 和 和 Chapin 1994] 的 七 层 分 别 
对 应 到 BSD 组 织 的 哪里 。 

1) 插口 层 是 一 个 到 下 面 协 议 相 关 层 的 
协议 无 关 接 口 。 所 有 系统 调用 从 协议 无 关 


的 插口 层 开 始 。 例如 ， aed tee 协议 层 
它们 验证 的 第 一 个 参数 是 一 i 
描述 符 ， 并 且 第 二 个 参数 是 一 个 进程 中 的 (以 太 网 、 。 环 回 等 ) 
有 效 指针 。 然 后 调用 下 层 的 协议 相关 代码 ， 
协议 相关 代码 可 能 包含 几 百 行 代码 。 媒体 1 物理 
| 2) 协议 层 包括 我 们 前 面 提 到 的 四 种 协 图 1-3 Net/3 联 网 代码 的 大 概 组 织 
议 族 (TCP/IP、XNS、OSI 和 Unix 域 ) 的 实现 。 
每 个 协议 族 可 能 包含 自己 的 内 部 结构 ， 在 图 1-3 中 我 们 没有 显示 出 来 。 例 如 ， 在 Internet 协 议 族 
中 ，IP( 网 络 层 ) 是 最 低层 ，TCP 和 UDP 两 种 运输 层 在 IP 的 上 面 。 
3) 接口 层 包括 同 网 络 设备 通信 的 设备 驱动 程序 。 


1.8 描述 符 


图 1-2 中 ， 一 开始 调用 socket ， 这 要 求 定 义 插口 类 型 。Internet 协 议 族 (PF_INET) 和 数据 
报 插 口 (SOCK_DGRAM) 组 合成 一 个 UDP 协 议 插 口 。 

socket 的 返回 值 是 一 个 描述 符 ， 它 具有 其 他 Unix 描 述 符 的 所 有 特性 : 可 以 用 这 个 描述 符 
调用 read 和 write; 可 以 用 aup 复 制 它 ; 在 调用 了 fork 后 ， 父 进程 和 子 进程 可 以 共享 它 ; 
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可 以 调用 fcnt1 来 改变 它 的 属性 ， 可 以 调用 colse 来 关闭 它 ， 等 等 。 在 我 们 的 例子 中 可 以 看 
到 插口 描述 符 是 函数 sendto 和 recvfrom 的 第 一 个 参数 。 当 程序 终止 时 (通过 调用 exit ) ， 
所 有 打开 的 描述 符 ， 包 括 插 口 描述 符 都 会 被 内 核 关 闭 。 

我 们 现在 介绍 在 进程 调用 socket 时 被 内 核 创建 的 数据 结构 。 在 后 面 的 几 章 中 会 更 详细 地 
摘 述 这 些 数 据 结构 。 

首先 从 进程 的 进程 表 表 项 开始 。 在 每 个 进程 的 生存 期 内 都 会 有 一 个 对 应 的 进程 表 表 项 
存在 。 

一 个 描述 符 是 进程 的 进程 表 表 项 中 的 一 个 数组 的 下 标 。 这 个 数组 项 指向 一 个 打开 文件 表 
结构 ， 这 个 结构 又 指向 一 个 描述 此 文件 的 i-node 或 v-node 结 构 。 图 1-4 说 明了 这 种 关系 。 


vnode() 


file() 


file() socket() 





图 1-4 从 一 个 描述 符 开 始 的 内 核 数据 结构 的 基本 关系 


在 这 个 图 中 ， 我 们 还 显示 了 一 个 涉及 插口 的 描述 符 ， 它 是 本 书 的 焦点 。 由 于 进程 表 表 项 
是 由 以 下 C 语 言 定 义 的 ， 我 们 把 记号 proc{} 放 在 进程 表 表 项 的 上 面 。 并 且 在 本 书 所 有 的 图 中 
都 用 它 来 标注 这 个 结构 。 


struct proc { 


} 

[Stevens 1992，3.10 有 ] 显 示 了 当 进 程 调用 aup 和 fork 时 摘 述 符 、 文 件 表 结 构 和 i-node 或 
v-node 之 间 的 关系 是 如 何 改变 的 。 这 三 种 数据 结构 的 关系 存在 于 所 有 版 本 的 Unix 中 ， 但 不 同 
的 实现 细节 有 所 变化 。 在 本 书 中 我 们 感 兴趣 的 是 socket 结 构 和 它 所 指向 的 Internet 专 用 数据 
结构 。 但 是 既然 插口 系统 调用 以 一 个 描述 符 开 始 ， 我 们 就 需要 理解 如 何 从 一 个 描述 符 导出 一 
个 socket 结 构 。 

如 果 程 序 如 此 执行 : 

a.out 
不 重 定 问 标准 输入 (描述 符 0)、 标 准 输出 (描述 符 1) 和 标准 错误 处 理 ( 描 述 符 2)， 图 1-5 显 示 了 程 
序 示例 中 的 Net/3 数 据 结构 的 更 多 细节 。 在 这 个 例子 中 ， 摘 述 符 0、1 和 2 连接 到 我 们 的 终端 ， 
并 且 当 socket 被 调用 时 未 用 摘 述 符 的 最 小 编号 古 3。 

当 进 程 执 行 了 一 个 系统 调用 ， 如 socket ， 内 核 就 访问 进程 表 结 构 。 在 这 个 结构 中 的 项 
p_fd 指 向 进程 的 filedesc 结 构 。 在 这 个 结构 中 有 两 个 我 们 现在 关心 的 成 员 : 一 个 是 
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fd ofileftlags， 它 是 一 个 字符 数组 指针 (每 个 描述 符 有 一 个 描述 符 标志 ) ; 一 个 契 
fd_ofiles， 它 是 一 个 指向 文件 表 结 构 的 指针 数组 的 指针 。 描 述 符 标志 有 8 位 ， 只 有 2 位 契 任 
何 描述 符 都 可 设置 的 : close-on-exec 标 志和 mapped-from-device 标 志 。 在 这 里 我 们 显示 的 所 有 


标志 都 是 0。 


fd ofileflags 
fd ofiles 





fileopsí(í) 


soo read 
soo write 
soo ioctl 
soo select 
Soo close 


inpcbí() inpcb() 
uab: [inp next [^ 
a [inp prev | ——]Line-erev — socket 
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«4... _ 所 有 UDP Internet 协 议 控制 块 的 __w 


双向 循环 链表 


fileops() 


— 
vn write 
vn icti 
vn select 
vn close 







file() 







图 1-5 在 程序 示例 中 调用 socket 后 的 内 核 数 据 结构 
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由 于 Unix 描 述 符 与 很 多 东西 有 关 ， 除 了 文件 外 ， 还 有 插口 、 管 道 、 目 录 、 设 备 
等 等 ， 因 此 ,我 们 有 意 把 本 节 叫 作 “ 描 述 符 ”而 不 是 “文件 描述 符 ”。 但 是 很 多 Unix 
文献 在 谈 到 描述 符 时 总 是 加 上 “文件 ”这 个 修饰 词 ， 其 实 没 有 必要 。 虽 然 我 们 要 说 
明 的 是 插口 描述 符 ， 但 这 个 内 核 数 据 结 构 叫 filedesc{}。 我 们 尽 可 能 使 用 描述 符 
这 个 未 加 修饰 的 术语 。 


项 fda_ofiles 指 同 的 数据 结构 用 *file{}[] 表 示 。 它 是 一 个 指 同 file 结构 的 指针 数组 。 
这 个 数组 及 描述 符 标志 数组 的 下 标 就 是 描述 符 本 身 一 一 0、1、2 等 等 ,是非 负 整数 。 在 图 1-5 
中 我 们 可 以 看 到 描述 符 0、1、2 对 应 的 项 指向 图 底部 的 同一 个 Eile 结 构 ( 由 于 这 三 个 描述 符 都 
对 应 终端 设备 )。 描 述 符 3 对 应 的 项 指向 男 外 一 个 file 结 构 。 

结构 file 的 成 员 type 指 示 描 述 符 的 类 型 是 DTYPE SOCKET 和 DTYPE VNODE, 
v-node 是 一 个 通用 机 制 ， 允 许 内 核 支 持 不 同类 型 的 文件 系统 一 一 磁盘 文件 系统 、 网 络 文 件 系 
统 ( 如 NFS)、CD-ROM 文 件 系 统 、 基 于 存储 器 的 文件 系统 等 等 。 在 本 书 中 关心 的 不 是 v-node， 
为 TCP/IP 插 口 的 类 型 总 是 DTYPE SOCKET, 

结构 file 的 成 员 fE_data 指 同一 个 socket 结 构 或 者 一 个 vnode 结 构 ， 根 据 摘 述 符 类 型 
而 定 。 成 员 _ops 指 癌 一 个 有 5 个 函数 指针 的 向 量 。 这 些 函 数 指 针 用 在 read、readyv.、 
write、writev、ioctl、select 和 close 系 统 调 用 中 ， 这 些 系统 调用 需要 一 个 插口 描述 
符 或 非 插 口 描述 符 。 这些 系统 调用 每 次 被 调用 时 都 要 查看 f_type 的 值 , 然后 做 出 相应 的 跳 转 ， 
实现 者 选择 了 直接 通过 fileops 结 构 的 相应 项 跳 转 的 方式 。 

我 们 用 等 宽 字体 (fo_read) 来 醒目 地 表示 结构 成 员 的 名 称 ， 用 斜体 等 宽 字体 
(soo_readqd) 来 表示 结构 成 员 的 内 容 。 注 意 ， 有 了 时 我 们 用 一 个 箭头 指向 一 个 结构 的 左上 角 ( 如 
结构 Eiledesc)， 有 时 用 一 个 箭头 指 同 一 个 结构 的 右上 角 ( 如 结构 file 和 fileops)。 我 们 用 
这 些 方 法 来 简化 图 例 。 

下 面 我 们 来 查看 结构 socket ， 当 描述 符 的 类 型 是 DTYPE_SOCKET 时 ， 结 构 file 指 癌 结 
构 socket 。 在 我 们 的 例子 中 ，socket 的 类 型 (数据 报 插口 的 类 型 是 SOCK_DGRAM) 保存 在 成 
员 so_type 中 。 还 分 配 了 一 个 Internet 协 议 控 制 块 (PCB): 一 个 inpcb 结 构 。 结 构 socket 的 
成 员 so_pcb 指 向 ijnpcb， 并 且 结 构 inpcb 的 成 员 inp_socket 指 向 结构 socket。 对 于 一 个 
给 定 插口 ， 操 作 可 能 来 自 “ 上 ”或 “下 ”两 个 方向 ， 因 此 需要 有 指针 来 互相 指 问 。 

1) 当 进 程 执 行 一 个 系统 调用 时 ， 如 sendto， 内 核 从 描述 符 值 开 始 ， 使 用 f9_ofiles 索 
引 到 fi1le 结 构 指针 向 量 ， 直 到 描述 符 所 对 应 的 Eile 结 构 。 结 构 Eile 指 向 socket 结 构 ， 结 
构 socket 带 有 指 同 结构 inpcb 的 指针 。 

2) 当 一 个 UDP 数 据 报到 达 一 个 网 络 接口 时 ， 内 核 搜 索 所 有 UDP 协 议 控制 块 ， 寻 找 一 个 合 
适 的 ， 至 少 要 根据 目标 UDP 端口 号 寻找 ， 可 能 还 要 根据 目标 耳 地 址 、 源 IP 地 址 和 源 端口 号 寻 
找 。 一 旦 定位 了 所 找 的 jnpcb， 内 核 就 能 通过 inp_socket 指 针 来 找到 相应 的 socket 结 构 。 

成 员 inp faddr 和 inp laddr 包 含 远 地 和 本 地 IP 地 址 ， 而 成 员 ijnp fport 和 
inp_lport 包 含 远 地 和 本 地 端口 号 。IP 地 址 和 端口 号 的 组 合 经 常 叫 作 插 口 。 

在 图 1-5 的 左边 ， 我 们 用 名 称 udb 来 标注 另 一 个 jnpcb 结 构 。 这 是 一 个 全 局 结构 ， 它 是 由 
所 有 UDP PCB 组 成 的 链表 表 头 。 我 们 可 以 看 到 两 个 成 员 inp_next 和 inp_prev 把 所 有 的 
UDP PCB 组 成 了 一 个 双向 环形 链表 。 为 了 简化 此 图 ， 我 们 用 两 条 平行 的 水 平 箭头 来 表示 两 条 
链 ， 而 不 是 用 箭头 指 同 PCB 的 顶 角 。 右 边 的 inpcb 结 构 的 成 员 inp_prev 指 同 结 构 udb ， 而 不 
是 它 的 成 员 inp_prev。 来 自 udb .inp_pzev 和 另 一 个 PCB 成 员 inp_next 的 虚线 箭头 表示 


这 里 还 有 其 他 PCB 在 这 个 双向 链表 上 ， 但 我 们 没有 画 出 。 

在 本 章 我 们 已 看 到 不 少 内 核 数据 结构 ， 其 中 大 多 数 还 要 在 后 续 章 节 中 说 明 。 现 在 要 理解 
的 关键 是 : 

1) 我 们 的 进程 调用 socket ， 最 后 分 配 了 最 小 未 用 的 描述 符 (在 我 们 的 例子 中 是 3) 。 在 后 
面 ， 所 有 针对 此 socket 的 系统 调用 都 要 用 这 个 描述 符 。 

2) 以 下 内 核 数 据 结构 是 一 起 被 分 配 和 链接 起 来 的 : 一 个 DTYPE_SOCKET 类 型 file 结 构 、 
一 个 socket 结 构 和 一 个 jnpcb 结 构 。 这 些 结构 的 很 多 初始 化 过 程 我 们 并 没有 说 明 : file 结 
构 的 读 写 标志 (因为 调用 socket 总 是 返回 一 个 可 读 或 可 写 的 描述 符 ) ， 默认 的 输入 和 输出 组 
存 大 小 被 设置 在 socket 结 构 中 ， 等 等 。 

3) 我 们 显示 了 标准 输入 、 输 出 和 标准 错误 处 理 等 非 揪 口 描述 符 ， 目 的 是 说 明 所 有 描述 符 
最 后 都 对 应 一 个 file 结 构 ， 虽 然 插口 描述 符 和 其 他 描述 符 之 间 有 所 不 同 。 


1.9 mbuf 与 输出 处 理 


在 伯克利 联网 代码 设计 中 ， 有 一 个 基本 概念 就 是 存储 颖 缓存 ， 称 作 一 个 mbuf， 在 整个 联 
网 代码 中 用 于 存储 各 种 信息 。 下 面 通过 我 们 的 简单 例子 (图 1-2) 分 析 mbuf 的 一 些 典 型 用 法 ,在 
第 2 章 中 我 们 会 更 详细 地 说 明 mbuf。 


1.9.1 包含 插口 地 址 结构 的 mbuf 


在 sendto 调 用 中 ， 第 5 个 参数 指向 一 个 Internet 插 口 地 址 结构 ( 叫 serv)， 第 6 个 参数 指示 它 
的 长 度 ( 后 面 我 们 将 要 看 到 是 16 字 市 )。 插 口 层 为 这 个 系统 调用 做 的 第 一 件 事 就 是 验证 这 些 参数 
是 有 效 的 ( 即 这 个 指针 指向 进程 地 址 空间 的 一 段 存储 器 )， 并 且 将 插口 地 址 结构 复制 到 一 个 
mbuf 中 。 图 1-6 所 示 就 是 这 个 所 得 到 的 mbuf。 


mbufí) 


m len 


m flags 







20 字 市 
MT_SONAME 
0 


; 带 有 目标 下 地 址 和 端口 号 的 





128 字 节 16 字 节 的 sockaddr in() 


图 1-6 mbuf 中 针对 sendto 的 目的 地 址 
mbuf 的 前 20 字 节 是 首部 ， 它 包含 关于 这 个 mbuf 的 一 些 信 息 。 这 个 20 字 闻 的 首部 包括 四 个 
4 字 节 字段 和 两 个 2 字 节 字段 。mbuf 的 总 长 度 为 128 字 节 。 
稍 后 我 们 会 看 到 ，mbuf 可 以 用 成 员 m_next 和 m_nextpkt 链 接 起 来 。 在 这 个 例子 中 都 是 
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空 指针 ， 它 是 一 个 独立 的 mbuf。 | 

成 员 m_data 指 向 mbuf 中 的 数据 ， 成 员 m_len 指 示 它 的 长 度 。 对 于 这 个 例子 , m_data 
指向 mbuf 中 数据 的 第 一 个 字 节 ( 紧 接 着 mbuf 首 部 )。mbuf 后 面 的 92 字 市 (108 一 16) 没 有 用 (图 1-6 
的 阴影 部 分 )。 

Km type 指示 包含 在 mbuf 中 的 数据 的 类 型 ， 在 本 例 中 是 MT_SONAME( 插 口 名 称 )。 首 
部 的 最 后 一 个 成 员 m_f1lags， 在 本 例 中 是 0。 


1.9.2 包含 数据 的 mbuf 


下 面 继续 讨论 我 们 的 例子 ， 插 口 层 将 sendto 调 用 中 指定 的 数据 缓存 中 的 数据 复制 到 一 个 
或 多 个 mbuf 中 。sendato 的 第 二 个 参数 指示 了 数据 缓存 (buff) 的 开始 位 置 ， 第 三 个 参数 是 它 
的 大 小 (150 字 节 )。 图 1-7 显 示 了 150 字 市 的 数据 是 如 何 存储 在 两 个 mbuf 中 的 。 




































mbuf () 指向 链 中 下 一 个 mbuf 的 指针 mbuf () 
NULL 
NULL "us 
100 50 
MT_DATA MT_DATA 
E: M PKTHDR | 
190 【mbuf 分 组 首部 
m. pkthár .rcvif|NULL 50 字 节 的 数据 
100 字 节 的 数据 A 











图 1-7 用 两 个 mbuf 来 存储 150 字 市 的 数据 


这 种 安排 叫 作 mbuf 链 表 。 在 每 个 mbuf 中 的 成 员 m_next 把 链表 中 所 有 的 mbuf 都 链接 在 
一 起 。 
我 们 看 到 的 另 一 个 变化 是 链表 中 第 一 个 mbuf 的 首部 的 另外 两 个 成 员 : m_pkthdr .1len 和 
m_pkthdr .rcvif。 这 两 个 成 员 组 成 了 分 组 首部 并 且 只 用 在 链表 的 第 一 个 mbuf 中 。 成 员 
m_flags 的 值 是 M_PKTHDR， 指 示 这 个 mbuf 包 含 一 个 分 组 首部 。 分 组 首部 结构 的 成 员 1en 包 
含 了 整个 mbuf 链 表 的 总 长 度 (在 本 例 中 是 150)， 下 一 个 成 员 rcvif 在 后 面 我 们 会 看 到 ， 它 包含 
了 一 个 指向 接收 分 组 的 接收 接口 结构 的 指针 。 

因为 mbuf 总 是 128 字 节 ， 在 链表 的 第 一 个 mbuf 中 提供 了 100 字 区 的 数据 存储 能 力 ， 而 后 面 
所 有 的 mbuf 有 108 字 节 的 存储 空间 。 在 本 例 中 的 两 个 nbuf 需 要 存储 150 字 节 的 数据 。 我 们 稍 后 
会 看 到 当 数 据 超过 208 字 节 时 ， 就 需要 3 个 或 更 多 的 mbuf。 有 一 种 不 同 的 技术 叫 “ 簇 ”一 一 一 
种 大 缓存 ， 一 般 有 1024 字 市 或 2048 字 市 。 . 

在 链表 的 第 一 个 mbuf 中 维护 一 个 带 有 总 长 度 的 分 组 首部 的 原因 是 ， 当 需要 总 长 度 时 可 以 
避免 查看 所 有 mbuf 中 的 m_len 来 求 和 。 
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1.9.3 添加 IP 和 UDP 首部 


在 插口 层 将 目标 插口 地 址 结构 复制 到 mbuf 中 ， 并 把 数据 复制 到 mbuf 链 中 后 ， 与 此 插口 描 
述 符 (一 个 UDP 接 述 符 ) 对 应 的 协议 层 被 调用 。 明 确 地 说 ，UDP 输 出 例 程 被 调用 ， 指 向 mbuf 的 
指针 被 作为 一 个 参数 传递 。 这 个 例 程 要 在 这 150 字 市 数据 的 前 面 添 加 一 个 IP 首 部 和 一 个 UDP 首 
部 ， 然 后 将 这 些 mbuf 传 递 给 IP 输 出 例 程 。 

在 图 1-7 中 的 mbuf 链 表 中 添加 这 些 数据 的 方法 是 分 配 男 外 一 个 mbuf， 把 它 放 在 链 首 ， 并 将 
分 组 首部 从 带 有 100 字 市 数据 的 mbuf 复 制 到 这 个 mbuf。 在 图 1-8 中 显示 了 这 三 个 mbuf。 





的 
mbuf() ; ru mbufí() 链 中 mbufí) 

J 下 一 个 mbuf E LN. 
sii Lun mbuf [s next NULL 
m nextpkt NULL m nextpkt NULL m nextpkt NULL 
m len 28 m len 100 m len 50 
mtype Mr DATA n type mr_para ( [nitype [mr oara 
M PKTHDR m flags 0 m flags 0 
m pkthdr.len |178 | mbuf psg mee d 
m pkthdr.rcvif|NULL | 分 组 首部 E 

50 字 市 的 数据 
100 字 节 的 数据 ce 





= 
ll 

En : "i : : 

uper i 

部 和 UDP 首部 E PETUTUDCTOMG V: Sue E M E 

Río E HS DU Au PEOR Ud 


图 1-8 在 图 1-7 中 的 mbuf 链 表 中 添加 另 一 个 带 有 IP 和 UDP 首部 的 mbuf 


IP 首 部 和 UDP 首部 被 放置 在 新 mbuf 的 最 后 ， 这 个 新 mbuf 就 成 了 整个 链表 的 首部 。 如 果 
需要 ， 它 允许 任何 其 他 低层 协议 (例如 接口 层 ) 在 IP 首 部 前 添加 自己 的 首部 ， 而 不 需要 再 复制 
IP 和 和 UDP 首部。 在 第 一 个 mbuf 中 的 m_data 指 针 指向 这 两 个 首部 的 起 始 位 置 ，m_len 的 值 是 
28。 在 分 组 首部 和 IP 首 部 之 间 有 72 字 节 的 未 用 空间 留 给 以 后 的 首部 ， 它 们 可 通过 适当 地 修改 
m_data 指 针 和 m_1len 添 加 在 IP 首 部 的 前 面 。 稍 后 我 们 会 看 见 以 太 网 首部 就 是 用 这 种 方法 建 
立 的 。 

注意 ， 分 组 首部 已 从 带 有 100 字 节 数 据 的 mbuf 中 移 到 新 mbuf 中 去 了 。 分 组 首部 必须 放 在 
mbuf 链 表 的 第 一 个 mbuf 中 。 在 移动 分 组 首部 的 同时 ， 在 第 一 个 mbuf 设 置 M_PKTHDR 标 志 并 且 
在 第 二 个 mbuf 中 清除 此 标志 。 在 第 二 个 mbuf 中 分 组 首部 占用 的 空间 现在 未 用 。 最 后 ， 在 此 分 
组 首部 中 的 长 度 成 员 由 于 增加 了 28 字 节 而 变 成 了 178。 

然后 UDP 输 出 例 程 填写 UDP 首 部 和 IP 首 部 中 它们 所 能 填写 的 部 分 。 例 如 ，IP 首 部 中 的 目 
标 地 址 可 以 被 设置 ， 但 IP 检 验 和 要 留 给 IP 输 出 例 程 来 计算 和 存放 。 

UDP 检验 和 计算 后 存储 在 UDP 首部 中 。 注 意 ， 这 要 求 遍 历 存 储 在 mbuf 链 表 中 的 所 有 150 字 
忆 的 数据 。 这 样 ， 内 核 要 对 这 150 字 节 的 用 户 数据 做 两 次 遍历 : 一 次 是 把 用 户 缓存 中 的 数据 复 
制 到 内 核 中 的 mbuf 中 ， 一 次 是 计算 UDP 检验 和 。 对 整个 数据 的 额外 遍历 会 降低 协议 的 性 能 ， 
在 后 续 章 市 中 我 们 会 介绍 另 一 种 可 选 的 实现 技术 ， 它 可 以 避免 不 必要 的 遍历 。 

接着 ，UDP 输 出 例 程 调用 IP 输 出 例 程 ， 并 把 此 mbuf 链 表 的 指针 传递 给 IP 输 出 例 程 。 
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1.9.4 IP 输 出 


IP 输 出 例 程 要 填写 I[P 首 部 中 剩余 的 字段 ， 包 括 : IP 检 验 和 ， 确 定数 据 报应 发 到 哪个 输出 接 
口 (这 是 IP 路 由 功能 )， 必 要 时 对 IP 报 文 分 片 ， 以 及 调用 接口 输出 函数 。 

假设 输出 接口 是 一 个 以 太 网 接口 ， 再 次 把 此 mbuf 链 表 的 指针 作为 一 个 参数 ， 调 用 一 个 通 
用 的 以 太 网 输出 函数 。 


1.9.5 以 太 网 输出 


以 太 网 输出 函数 的 第 一 个 功能 就 是 把 32 位 IP 地 址 转换 成 相应 的 48 位 以 太 网 地 址 。 在 使 用 
ARP( 地 址 解析 协议 ) 时 会 使 用 这 个 功能 ， 而 且 会 在 以 太 网 上 发 送 一 个 ARP 请 求 并 等 待 一 个 ARP 
应 答 。 此 时 ， 要 输出 的 mbuf 链 表 已 得 到 ， 并 等 待 应 答 。 

然后 以 太 网 输出 例 程 把 一 个 14 字 节 的 以 太 网 首部 添加 到 链表 的 第 一 个 mbuf 中 ， 紧 接 在 了 
首部 的 前 面 (图 1-8)。 以 太 网 首部 包括 6 字 节 以 太 网 目标 地 址 、6 字 节 以 太 网 源 地 址 和 2 字 节 以 太 
网 帧 类 型 。 

之 后 此 mbuf 链 表 被 加 到 此 接口 的 输出 队列 队 尾 。 如 果 接 口 不 忙 ， 接 口 的 “开始 输出 ” 例 
程 立即 被 调用 。 若 接口 忙 ， 在 它 处 理 完 输出 队列 中 的 其 他 缓存 后 ， 它 的 输出 例 程 会 处 理 队 列 
中 的 这 个 新 mbuf。 

当 接 口 处 理 它 输出 队列 中 的 一 个 mbuf 时 ， 它 把 数据 复制 到 它 的 传输 缓存 中 ， 并 且 开 始 输 
出 。 在 我 们 的 例子 中 ，192 字 节 被 复制 到 传输 缓存 中 : 14 字 节 以 太 网 首部 、20 字 节 IP 首 部 、8 
字 节 UDP 首 部 及 150 字 节 用 户 数据 。 这 是 内 核 第 三 次 遍历 这 些 数据 。 一 旦 数据 从 mbuf 链 表 被 复 
制 到 设备 传输 缓存 ，mbuf 链 表 就 被 以 太 网 设备 驱动 程序 释放 。 这 三 个 mbuf 被 放 回 到 内 核 的 自 
由 缓存 池 中 。 


1.9.6 UDP 输出 小 结 


我 们 在 图 1-9 中 给 出 了 进程 调用 sendto 传 输 UDP 数 据 报时 的 大 致 处 理 过 程 。 图 中 所 示 的 
处 理 过 程 与 三 层 内 核 代 码 ( 图 1-3) 的 关系 也 显示 出 来 了 。 





sendto | 系统 调用 
把 目标 插口 地 址 结构 和 用 户 数 
据 (150 字 市 ) 复 制 到 mbuf 链 中 


UDP 输 出 
IP 输 出 


以 太 网 输出 (ARP) 
设备 驱动 器 输出 


以 太 网 帧 


图 1-9 三 层 处 理 一 个 简单 UDP 输出 的 执行 过 程 


函数 调用 控制 从 插口 层 到 UDP 输出 例 程 ， 到 IP 输 出 例 程 ， 然 后 到 以 太 网 输出 例 程 。 每 个 
函数 调用 传递 一 个 指向 要 输出 的 mbuf 的 指针 。 在 最 低层 一 一 设备 驱动 程序 层 ，mbuf 链 表 被 放 
置 到 设备 输出 队列 并 启动 设备 。 函 数 调用 按 调用 的 相反 顺序 返回 ， 最 后 系统 调用 返回 给 进程 。 
注意 ， 直 到 UDP 数据 报到 达 设 备 驱 动 程序 前 ，UDP 数 据 没 有 排队 。 高 层 仅仅 添加 它们 的 协议 
首部 并 把 mbuf 传 递 给 下 一 层 。 

这 时 ， 在 我 们 的 程序 示例 中 调用 recvfrom 去 读 取 服 务 器 的 应 答 。 因 为 该 插口 的 输入 队 
列 是 空 的 (假设 应 答 还 没有 到 达 )， 进 程 就 进入 睡眠 状态 。 


1.10 输入 处 理 


输入 处 理 与 刚 讲 过 的 输出 处 理 不 同 ， 因 为 输入 是 异步 的 。 也 就 是 说 ， 它 通过 一 个 “接收 
完成 中 断 ” 触 发 以 太 网 设备 驱动 程序 来 接收 输入 分 组 ， 而 不 是 通过 进程 的 系统 调用 。 内 核 处 
理 这 个 设备 中 断 ， 并 调度 设备 驱动 程序 进入 运行 状态 。 


1.10.1 以 太 网 输入 


以 太 网 设备 驱动 程序 处 理 这 个 中 断 ， 假 定 它 sbult 
表示 一 个 正常 的 接收 已 完成 ， 数 据 从 设备 读 到 
一 个 mbuf 链 表 中 。 在 我 们 的 例子 中 ， 接 收 了 54 
字 节 的 数据 并 复制 到 一 个 mbuf 中 : 20 字 节 IP 首 
部 、8 字 节 UDP 首 部 及 26 字 节 数 据 (服务 器 的 时 间 
与 日 期 )。 图 1-10 所 示 的 是 这 个 mbuf 的 格式 。 

这 个 mbuf 是 一 个 分 组 首部 (m_f1lags 被 设置 
成 M_PKTHDR), 它 是 一 个 数据 记录 的 第 一 个 mbuf。 
分 组 首部 的 成 员 1en 包 含 数 据 的 总 长 度 ， 成 员 
rcvif 包 含 一 个 指针 ， 它 指向 接收 数据 的 接口 的 
结构 (第 3 章 ) 。 我 们 可 以 看 到 成 员 rcvif 用 于 接 
收 分 组 而 不 是 输出 分 组 (图 1-7 和 图 1-8)。 5 go 
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mbuf 中 ，54 字 节 的 数据 存储 在 剩余 的 84 字 节 的 空间 中 。 

设备 驱动 程序 把 mbuf 传 给 一 个 通用 以 太 网 输入 例 程 ， 它 通过 以 太 网 帧 中 的 类 型 字段 确定 
哪个 协议 层 来 接收 此 分 组 。 在 这 个 例子 中 ， 类 型 字段 标识 一 个 IP 数 据 报 ， 从 而 mbuf 被 加 入 到 
IP 输 入 队列 中 。 另 外 ， 会 产生 一 个 软 中 断 来 执行 I 卫 输入 例 程 。 这 样 ， 这 个 设备 中 断 处 理 就 完 
Nf. 

1.10.2 IPA 














m pkthdr.len 

m pkthdr.rcvif 
Mont d 
FA 


or 16 字 市 ( 但 未 用 ) 


| 人 20 字 节 IP 首 部 
8 字 节 UDP 首部 
26 字 节 数 据 


IP 输 入 是 异步 的 ， 并 且 通 过 一 个 软 中 断 来 执行 。 当 接口 层 在 系统 的 接口 上 收 到 IP 数 据 报 
时 ， 它 就 设置 这 个 软 中 断 。 当 IP 输 入 例 程 执行 它 时 ， 循 环 处 理 在 它 的 输入 队列 中 的 每 一 个 IP 
数据 报 ， 并 在 整个 队列 被 处 理 完 后 返回 。 

IP 输 入 例 程 处 理 每 个 接收 到 的 IP 数 据 报 。 它 验证 IP 首 部 检验 和 和， 处理 IP 选 项 ， 验 证 数据 报 
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被 传递 到 正确 的 主机 (通过 比较 数据 报 的 目标 IP 地 址 与 主机 IP 地 址 )， 并 当 系 统 被 配置 为 一 个 路 
由 器 且 数 据 报 被 标注 为 其 他 的 IP 地 址 时 转发 此 数据 报 。 如 果 IP 数 据 报到 达 它 的 最 终 目 标 ， 调 
用 IP 首 部 中 标识 的 协议 (ICMP，IGMP，TCP 或 UDP) 的 输入 例 程 。 在 我 们 的 例子 中 ， 调 用 
UDP 和 输入 例 程 去 处 理 UDP 数 据 报 。 


1.10.3 UDP 输入 


UDP 输入 例 程 验证 UDP 首部 中 的 各 字段 (长 度 与 可 选 的 检验 和 )， 然 后 确定 一 个 进程 是 否 应 
该 接收 此 数据 报 。 在 第 23 章 我 们 要 详细 讨论 这 个 检查 是 如 何 进 行 的 。 一 个 进程 可 以 接收 到 一 
指定 UDP 端 口 的 所 有 数据 报 ， 或 让 内 核 根 据 源 与 目标 IP 地 址 及 源 与 目标 端口 号 来 限制 数据 报 
的 接收 。 

在 我 们 的 例子 中 ，UDP 输 入 例 程 从 一 个 全 局 变量 udb( 图 1-5) 开 始 ， 查 看 所 有 UDP 协 议 控 
制 块 链表 ， 寻 找 一 个 本 地 端口 号 (inp_lport) 与 接收 的 UDP 数 据 报 的 目标 端口 号 匹配 的 协议 
控制 块 。 这 个 PCB 是 由 我 们 调用 socket 创 建 的 ， 它 的 成 员 inp_socket 指 向 相应 socket 结 
构 ， 并 允许 接收 的 数据 在 此 插口 排队 。 

在 程序 示例 中 ， 我们 从 未 为 应 用 程序 指定 本 地 端口 号 。 在 习题 23.3 中 ,我 们 会 看 

到 在 写 第 一 个 UDP 程 序 时 创建 一 个 插口 而 不 绑 定 一 个 本 地 应 口号 会 导致 内 核 自 动 地 

给 此 插口 分 配 一 个 本 地 和 闹 口号 ( 称 为 短期 端口 )。 这 就 是 插口 的 PCB 成 员 inp lport 

不 是 一 个 空 值 的 原因 。 


因为 这 个 UDP 数据 报 要 传递 给 我 们 的 进程 ， 发 送 方 的 了 P 地 址 和 UDP 端口 号 被 放置 到 一 个 
mbuf 中 ， 这 个 mbuf 和 数据 (在 我 们 的 例子 中 是 26 字 节 ) 被 追加 到 此 插口 的 接收 队列 中 。 图 1-11 
所 示 的 古 被 追加 到 这 个 插口 的 接收 队列 中 的 这 两 个 mbuf。 


mbuf() 指向 链 中 下 一 个 mbuf 的 指针 


m flags 


















插口 的 接 __w 
收 队 列 
















m next 
m nextpkt 







NULL 
16 






MT SONAME 
0 
16 字 节 sockaddqr iní() 
带 有 发 送 方 了 下地 址 和 端口 号 









m pkthdr.len 26 
m_pkthdr .rcvif| 指 向 接口 结构 的 指针 


44*£- OR HD 





图 1-11 发 送 方 地 址 和 数据 


比较 这 个 链表 中 的 第 二 个 mbuf(MT_DRATRA 类 型 ) 与 图 1-10 中 的 mbuf， 成 员 m_1en 和 
m_pkthdr .1en 都 减 小 了 28 字 节 (20 字 节 的 卫 首 部 和 8 字 节 的 UDP 首部 )， 并 且 指 针 m_adata 也 
减 小 了 28 字 市 。 这 有 效 地 将 IP 和 UDP 首 部 删 去 ， 只 保留 了 26 字 节 数 据 追 加 到 插口 接收 队列 。 


在 链表 的 第 一 个 mbuf 中 包括 一 个 16 字 节 Internet 播 口 地 址 结构 ， 它 带 有 发 送 方 IP 地 址 和 
UDP 端口 号 。 它 的 类 型 是 MT_SONRAME ， 与 图 1-6 中 的 mbuf 类 似 。 这 个 mbuf 是 揪 口 层 创建 的 ， 
将 这 些 信息 返回 给 通过 系统 调用 recvform 或 ecvmsg 调 用 的 进程 。 即 使 在 这 个 链表 的 第 二 
个 mbuf 中 有 空间 (16 字 节 ) 存 储 这 个 播 口 地 址 结构 ， 它 也 必须 存放 到 自己 的 mbuf 中 ， 因 为 它们 
的 类 型 不 同 (一 个 是 MT_SONAME, 一 个 是 MT DATA), 

然后 接收 进程 被 唤醒 。 如 果 进 程 处 于 睡眠 状态 等 待 数据 的 到 达 ( 我 们 例子 中 的 情况 )， 进 程 
锌 标志 为 可 运行 状态 等 待 内 核 的 调度 。 也 可 以 通过 select 系 统 调用 或 SIGIO 信 号 来 通知 进 
程 数据 的 到 达 。 


1.10.4 进程 输入 


我 们 的 进程 调用 *ecvfrom 时 被 阻塞 ， 在 内 核 中 处 于 睡眠 状态 ， 现 在 进程 被 唤醒 。UDP 
层 追 加 到 插口 接收 队列 中 的 26 字 节 的 数据 (接收 的 数据 报 ) 被 内 核 从 mbuf 复 制 到 我 们 程序 的 组 
存 中 。 

注意 ， 我 们 的 程序 把 recvform 的 第 5 和 第 6 个 参数 设置 为 空 指针 ， 告 诉 系 统 在 接收 过 程 
中 不 关心 发 送 方 的 了 地址 和 UDP 端口 号 。 这 使 得 系统 调用 *ecvfzrom 时 略 过 链表 中 的 第 一 个 
mbuf( 图 1-11)， 仅 返回 第 二 个 mbuf 中 的 26 字 节 的 数据 。 然 后 内 核 的 zxecvfrom 代 码 释 放 图 1-11 
中 的 两 个 nbuf， 并 把 它们 放 回 到 自由 mbuf 池 中 。 


1.11 网 络 实现 概述 ( 续 ) 


图 1-12 总 结 了 在 各 层 间 为 网 络 输入 、 输 出 而 进行 的 通信 。 图 1-12 是 对 图 1-3 进 行 了 重 画 ， 
它 只 考虑 Internet 协 议 ， 并 且 强 调 层 间 的 通信 。 符 号 splnet 与 splimp 在 下 一 节 讨 论 。 
对 于 插口 队列 (socket queue) 和 接口 队列 (interface queue) 来 说 ， 每 个 插口 和 每 个 接口 (以 太 







软件 中 断 e@splnet 
(由 接口 层 产生 ) 
图 数 调用 协议 队列 
来 启动 输出 (IP 输 入 队列 ) 
三 硬件 中 断 @splimp 
口 
S (由 网 络 设备 产生 ) 


图 1-12 网 络 输入 输出 的 层 间 通信 
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网 、 环 回 、SLIP、PPP 等 ) 都 有 一 个 队列 ， 但 对 于 协议 队列 (protocol queue) 来 说 ， 只 有 一 个 
IP 输 入 队列 。 如 来 考虑 其 他 协议 层 ， 我 们 就 会 有 一 个 队列 用 于 XNS 协 议 ， 一 个 队列 用 于 OSI 
协议 。 


1.12 中 断 级 别 与 并 发 


我 们 在 1.10 刷 看 到 联网 代码 处 理 输入 分 组 用 的 是 异步 和 中 断 驱动 的 方式 。 首 先 ， 一 个 设备 
中 断 引 发 接口 层 代码 执行 ， 然 后 它 产 生 一 个 软 中 断 引 发 协议 层 代 码 执行 。 当 内 核 完 成 这 些 级 
别 的 中 断后 ， 执 行 插口 代码 。 

在 这 里 给 每 个 硬件 和 软件 中 断 分 配 一 个 优先 级 。 图 1-13 所 示 的 是 8 个 优先 级 别 的 顺序 ， 从 
最 低级 别 ( 不 阻塞 中 断 ) 到 最 高 级 别 (阻塞 所 有 中 断 )。 


splo 正常 操作 方式 ， 不 阻塞 中 断 (最 低 优先 级 ) 
Splsoftclock 低 优先 级 时 钟 处 理 

splnet 网 络 协议 处 理 

spltty 终端 输入 /输出 


splbio 磁盘 与 磁带 输入 /输出 

splimp 网 络 设备 输入 /输出 

splclock 高 优先 级 时 钟 处 理 

splhigh 阻塞 所 有 中 断 (最 高 优先 级 ) 





图 1-13 阻塞 所 选中 断 的 内 核 函数 


[Leffler et al. 1989] 的 表 4-5 显 示 了 用 于 VAX 实 现 的 优先 级 别 。386 的 Net/3 的 实现 
使 用 图 1-13 所 示 的 8 个 逊 数 ,但 splsoftclock 与 splnet 在 同一 级 别 ，splclock 
与 splhigh 也 在 同一 级 别 。 
用 于 网 络 接 口 级 别 的 名 称 imp 来 自 缩写 IMP( 接 口 报 文 处 理 器 )， 它 是 在 ARPANET 
中 使 用 的 路 由 器 的 最 初 类 型 。 
不 同 优先 级 的 顺序 意味 着 高 优先 级 中 断 可 以 抢占 低 优先 级 中 断 。 看 图 1-14 所 示 的 事件 顺序 。 
被 抢占 


被 抢占 


spl0 插口 i 









splnet 







协议 (P 输 入 ) | 


spltty 
; 以 太 网 设备 
1 
splimp 驱动 程序 


步骤 1 2 3 4 


unr 一 
——— 
— a 


图 1-14 优先 级 示例 与 内 核 处 理 


1) 当 播 口 层 以 级 别 sp10 执 行 时 ， 一 个 以 太 网 设备 驱动 程序 中 断 发 生 ， 使 接口 层 以 级 别 
splimp 执 行 。 这 个 中 断 抢占 了 插口 层 代 码 的 执行 。 这 就 是 异步 执行 接口 输入 例 程 。 

2) 当 以 太 网 设备 驱动 程序 在 运行 时 ， 它 把 一 个 接收 的 分 组 放置 到 IP 输 出 队列 中 并 调度 一 
个 splnet 级 别 的 软 中 断 。 软 中 断 不 会 立即 有 效 ， 因 为 内 核 正 在 一 个 更 高 的 优先 级 (splimp) 
上 运行 。 

3) 当 以 太 网 设备 驱动 程序 完成 后 ， 协 议 层 以 级 别 splnet 执 行 。 这 就 是 异步 执行 IP 输 入 
例 程 。 

4) 一 个 终端 设备 中 断 发 生 ( 完 成 一 个 SLIP 分 组 ) 时 ， 它 立即 被 处 理 ， 抢 占 协议 层 ， 因 为 终 
端 输 入 /输出 (spltty) 优 先 级 比 图 1-13 中 的 协议 层 (splnet) 更 高 。 

5) SLIP 驱 动 程序 把 接收 的 分 组 放 到 IP 输 入 队列 中 并 为 协议 层 调度 另 一 个 软 中 断 。 

6) 当 SLIP 驱 动 程序 结束 时 ， 被 抢占 的 协议 层 继续 以 级 别 splnet 执 行 ， 处 理 完 从 以 太 网 
设备 驱动 程序 收 到 的 分 组 后 ， 处 理 从 SLIP 驱 动 程序 接收 的 分 组 。 仅 当 没 有 其 他 输入 分 组 要 处 
理 时 ， 它 才 会 把 控制 权 交还 给 被 它 抢占 的 进程 (在 本 例 中 是 插口 层 )。 

7) 插口 层 从 它 被 中 断 的 地 方 继续 执行 。 

对 于 这 些 不 同 优先 级 ， 一 个 要 关心 的 问题 就 是 如 何 处 理 那些 在 不 同 级 别 的 进程 间 共 享 的 
数据 结构 。 在 图 1-12 中 显示 了 三 种 在 不 同 优先 级 进程 间 共 享 的 数据 结构 一 一 插口 队列 、 接 口 
队列 和 协议 队列 。 例 如 ， 当 IP 输 入 例 程 正在 从 它 的 输入 队列 中 取出 一 个 收 到 的 分 组 时 ， 一 个 
设备 中 断 发 生 ， 抢 占 了 协议 层 ， 并 且 那 个 设备 驱动 程序 可 能 添加 另 一 个 分 组 到 IP 输 入 队列 。 
这 些 共享 的 数据 结构 (本 例 中 的 IP 输 入 队列 ， 它 共享 于 协议 层 和 接口 层 )， 如 果 不 加 协调 地 访问 
它们 ， 可 能 会 破坏 数据 的 完整 性 。 

Net/3 的 代码 经 萤 调 用 图 数 sp1limp 和 splnet。 这 两 个 调用 总 是 与 sSp1Lx 成 对 出 现 ，sP1xX 
使 处 理 器 返回 到 原来 的 优先 级 。 例 如 下 面 这 段 代 码 ， 被 协议 层 IP 输 入 函数 执行 ， 检 查 是 否 有 
其 他 分 组 在 它 的 输入 队列 中 等 待 处 理 : 


struct mbuf *m; 


int 8; 





8 = gplimp (J); 
IF DEQUEUE (&ipintrq, m); 
splx (s); 


if (m == 0) 
returns 

调用 splimp 把 CPU 的 优先 级 升 高 到 网 络 设备 驱动 程序 级 ， 防 止 任何 网 络 设备 驱 动 程序 中 断 发 
生 。 原 来 的 优先 级 作为 函数 的 返回 值 存储 到 变量 s 中 。 然 后 执行 宏 IF_DEQUEUE 把 IP 输 入 队列 
(ipintrq) 头 部 的 第 二 个 分 组 删 去 ， 并 把 指向 此 mbuf 链 表 的 指针 放 到 变量 m 中 。 最 后 ， 通 过 
调用 带 有 参数 s( 其 保存 着 前 面 调用 splimp 的 返回 值 ) 的 spl1x，CPU 的 优先 级 恢复 到 调用 
splimp 前 的 级 别 。 

由 于 在 调用 sp1imp 和 sp1x 之 间 所 有 的 网 络 设备 驱动 程序 的 中 断 被 禁止 ， 在 这 两 个 调用 
间 的 代码 应 尽 可 能 地 少 。 如 果 中 断 被 禁止 的 时 间 过 长 ， 其 他 设备 会 被 忽略 ， 数 据 会 被 丢失 。 
因此 ， 对 变量 m 的 测试 (看 是 否 有 其 他 分 组 要 处 理 ) 被 放 在 调用 sp1x 之 后 而 不 是 之 前 。 

当 以 太 网 输出 例 程 把 一 个 要 输出 的 分 组 放 到 一 个 接口 队列 ， 并 测试 接口 当前 是 否 忙 时 一 一 
若 接口 不 忙 则 启动 接口 ， 需 要 这 些 sp1 调 用 。 
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struct mbuf  *m; 


int S; 
s - splimp(); 
/* 
* Queue message on interface, and start output if interface not active. 
VI 
if (IF QFULL(&ifp-»if snd)) ( 
IF DROP(&ifp-»if snd); /* queue is full, drop packet */ 
splxí(s); 
error - ENOBUFS; 
goto bad; 
) 
IF ENQUEUE(&ifp-»if snd, m); /* add the packet to interface queue */ 
if ((ifp-»if flags & IFF OACTIVE) == 0) 
(*ifp-»if start)(ifp); /* start interface */ 
Spix(s);: 


在 这 个 例子 中 ， 设 备 中 断 被 禁止 的 原因 是 ， 防 止 在 协议 层 正 往 队 列 添加 分 组 时 设备 驱动 
程序 从 它 的 发 送 队 列 中 取 走 下 一 个 分 组 。 设 备 发 送 队 列 是 一 个 在 协议 层 和 接口 层 共 享 的 数据 
结构 。 

在 整个 源 代码 中 到 处 都 会 看 到 sp1l 函 数 。 


1.13. 源 代码 组 织 
图 1-15 所 示 的 是 Net/3 网 络 源 代码 的 组 织 ， 假 设 它 位 于 目录 /usr/src/sys。 
C4386 J Intel 80x86 专 用 
C kern D HAKH 
通用 联网 
HDLC, X.25 


TCP/IP 


Fa Cusr ) Care ) Ces OSI 协议 
XNS 协 议 
NFS 

内 核 头 文件 


文件 系统 


VLL 


HERL NiE ex 
图 1-15 NetU3 源 代码 组 织 
本 书 的 重点 在 目录 netinet， 它 包含 所 有 TCP/IP 源 代码 。 在 目录 kern 和 net 中 我 们 也 可 
找到 一 些 文件 。 前 者 是 协议 无 关 的 插口 代码 ， 而 后 者 是 一 些 通 用 联网 函数 ， 用 于 TCP/IP 例 程 ， 
如 路 由 代码 。 
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包含 在 每 个 目 孙 中 的 文件 简要 地 列 于 下 面 。 

e i386; Intel 80x86 专 用 目录 。 例 如 ， 目 录 i1386/isa 包 含 专用 于 ISA 总 线 的 设备 驱动 程 
序 。 目 录 i386/stand 包 含 单机 引导 程序 代码 。 

。kern: 通用 的 内 核 文件 ， 不 属于 其 他 目录 。 例 如 ， 处 理 系 统 调用 fork 和 exec 的 内 核 
文件 在 这 个 目录 。 在 这 个 目录 中 ， 我们 只 考察 少数 儿 个 文件 一 一 用 于 插口 系统 调用 的 文 
件 ( 插 口 层 在 图 1-3)。 

enet: 通用 联网 文件 ， 例 如 ， 通 用 联网 接口 溯 数 ，BPF(BSD 分 组 过 滤 右 ) 代 码 、SLIP 驱 
动 程序 和 路 由 代码 。 在 这 个 目录 中 我 们 考察 一 些 文件 。 

*netccitt; OSI 协 议 接 口 代码 ， 包 括 HDLC( 高 级 数据 链 路 控制 ) 和 X.25 驱 动 程序 。 

。netinet: Internet 协 议 代码 ， 包 括 IP、ICMP、IGMP、TCP 和 UDP。 本 书 的 重点 集中 
在 这 个 目录 中 的 文件 。 

。netiso: OSI 协 议 。 

。netns: 施乐 (Xerox)XNS 协 议 。 

。nfs: Sun 公 司 的 网 络 文件 系统 代码 。 

*sys: 系统 头 文件 。 在 这 个 目录 中 我 们 考察 几 个 头 文件 。 这 个 目录 中 的 文件 还 出 现在 目 
录 /usr/include/sys 中 。 

。ufs: Unix 文 件 系 统 (有 时 叫 伯克利 快速 文件 系统 ) 的 代码 。 它 是 标准 磁盘 文件 系统 。 

evm: META D as ARDUIS. 

图 1-16 所 示 的 是 源 代 码 组 织 的 另 一 种 表现 形式 ， 它 映射 到 我 们 的 三 个 内 核 层 。 忽 略 

netimp 和 和 nfs 这样 的 目录 ， 在 本 书 中 我 们 不 关心 它们 。 
s socks LT 






netns/ netiso/ kern/ v3, ES 


2 100 13 000 6 000 26 000 750 





500 1 750 250 2 000 1 000 每 驱动 程序 


图 1-16 映射 到 三 个 内 核 层 的 Net/3 源 代码 组 织 


在 每 个 表格 框 底 下 的 数字 是 对 应 功能 的 C 代 码 的 近似 行 数 ， 包 括 源 文件 中 的 所 有 注释 。 
我 们 不 考察 图 中 所 有 的 源 代 码 。 显 示 目 孙 netns 与 netiso 是 为 了 与 Internet 协 议 比较 。 
我 们 仅 考 虑 有 阴影 的 表格 框 。 


1.14 测试 网 络 
图 1-17 所 示 的 测试 网 络 用 于 本 书 中 所 有 的 例子 。 除 了 在 图 顶部 的 主机 vangogh， 所 有 的 
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IP 地 址 属于 B 类 网 络 地 址 140.252， 并 且 所 有 主机 名 属于 域 .tuc .noao.edu (noao 人 代表“ 国家 
光学 天 文人 台 ”，tuc 人 代表“ 图 森 ”)。 例 如 ， 在 右 下 角 的 系统 的 主机 全 名 是 svr4 .tuc .noao. 
edqu， 卫 地 址 是 140.252.13.34。 在 每 个 框图 顶 上 的 记号 是 运行 在 此 系统 上 操作 系统 的 名 称 。 

在 图 顶部 的 主机 的 全 名 是 vangogh.cs.berkelev.edu， 其 他 主机 通过 Internet 可 以 连 
接 到 它 。 

这 个 图 与 卷 1 中 的 测试 网 络 几 平一 样 ， 有 一 些 操作 系统 升级 了 ， 在 sun 与 netb 之 间 的 拨号 
链 路 现在 用 PPP 取 代 了 SLIP。 另 外 ， 我 们 用 Net/3 联 网 代码 代替 了 BSD/386 V1.1 提 供 的 Net/2 联 
网 代码 。 


4.4BSD-Lite 


| 128.32.33.5 
| 


AIX 3.2.2 Solaris 2.3 SunOS 4.1.3 .104.1 
aix solaris gemini gateway Cisco 
路 由 器 
.1.92 .1.32 .1.11 .1.4 
以 太 网 .1.183 


二 进 制 遥测 系统 
nath NetBlazer 


PPP| 拨号 
BSD/386 1.1 BSD/386 1.1 Solaris 2.3 |.1.29 SVR4 
SLIP 
"— SAN om om 
13.35 13.33 13.34 


以 太 网 
图 1-17 用 于 本 书 中 所 有 例子 的 测试 网 络 
1.15 小 结 


本 章 是 对 Net3 联 网 代码 的 概述 。 通 过 一 个 简单 的 程序 示例 (图 1-2) 一 一 发 送 一 个 UDP 数据 
报 给 一 个 日 期 时 间 服 务 器 并 接收 应 答 ， 我 们 分 析 了 通过 内 核 进行 输入 、 输 出 的 过 程 。mbuf 中 
保存 要 输出 的 信息 和 接收 的 了 数据 报 。 下 一 章 我 们 要 查看 mbuf 的 更 多 细节 。 

当 进 程 执 行 sendto 系 统 调用 时 ， 产 生 UDP 输 出 ， 而 IP 输 入 是 异步 的 。 当 一 个 设备 驱动 程 
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序 接收 了 一 个 IP 数 据 报 ， 数 据 报 被 放 到 IP 输 入 队列 中 并 且 产 生 一 个 软 中 断 使 IP 输 入 函数 执行 。 
我 们 考察 了 在 内 核 中 用 于 联网 代码 的 不 同 中 断 级 别 。 由 于 很 多 联网 数据 结构 被 不 同 的 层 所 共 
享 ， 而 这 些 层 在 不 同 的 中 断 级 别 上 执行 ， 因 此 当 访 问 或 修改 这 些 共享 结构 时 要 特别 小 心 。 几 
平 所 有 我 们 要 查看 的 函数 中 都 会 遇 到 spl 函 数 。 

本 章 结 束 时 我 们 查看 了 NeV3 源 代码 的 整个 组 织 结构 ， 以 及 本 书 关注 的 代码 。 


2] fi 


1.1. 输入 程序 示例 (图 1-2) 并 在 你 的 系统 上 运行 。 如 果 你 的 系统 有 系统 调用 跟踪 能 力 ， 如 
trace (SunOS 4.x), truss (SVR4) 或 ktrace (4.4BSD)， 用 它 检 测 本 例 中 调用 的 
系统 调用 。 

1.2 在 1.12 市 调用 IF_DEQUEUE 的 例子 中 ， 我 们 注意 到 调用 splimp 来 防止 网 络 设备 驱动 
程序 的 中 断 。 当 以 太 网 驱动 程序 以 这 个 级 别 执行 时 ，SLIP 驱 动 程序 会 发 生 什 么 ? 
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2.1 引言 


联网 协议 对 内 核 的 存储 右 管 理 能 力 提 出 了 很 多 要 求 。 这 些 要 求 包括 能 方便 地 操作 可 变 长 
缓存 ， 能 在 缓存 头 部 和 尾部 添加 数据 (如 低层 封装 来 自 高 层 的 数据 )， 能 从 缓存 中 移 去 数据 (如 
当 数 据 分 组 同上 经 过 协议 栈 时 要 去 抒 首 部 )， 并 能 尽量 减少 为 这 些 操 作 所 做 的 数据 复制 。 内 核 
中 的 存储 右 管 理 调 度 直接 关系 到 联网 协议 的 性 能 。 

在 第 1 章 我 们 介绍 了 普遍 应 用 于 Net3 内 核 中 的 存储 器 缓存 一 一 mbuf， 它 是 “memory 
buffer” 的 缩写 。 在 本 章 ， 我 们 要 查看 mbuf 和 内 核 中 用 于 操作 它们 的 国 数 的 更 多 细节 ， 在 本 书 
中 几乎 每 一 页 我 们 都 会 遇 到 mbuf。 要 理解 本 书 的 其 他 部 分 必须 先 要 理解 mbuf。 

mbuf 的 主要 用 途 是 保存 在 进程 和 网 络 接口 间 互 相传 递 的 用 户 数据 。 但 mbuf 也 用 于 保存 其 
他 各 种 数据 : 源 与 目标 地 址 、 插 口 选项 等 等 。 

图 2-1 显 示 了 我 们 要 过 到 的 四 种 不 同类 型 的 mbuf， 它 们 依据 在 成 员 m fl1ags 中 填写 的 不 
同 标志 M_PKTHDR 和 M_EXT 而 不 同 。 图 2-1 中 四 个 mbuf 的 区 别 从 左 到 右 罗列 如 下 : 

1) 如 果 m_f1lags 等 于 0,，mbuf 只 包含 数 据 。 在 mbuf 中 有 108 字 市 的 数据 空间 (m_dat 数 组 )。 
指针 m_data 指 向 这 108 字 节 缓 存 中 的 某 个 位 置 。 图 中 所 示 的 m_data 指 向 缓存 的 起 始 ， 但 它 
也 能 指向 缓存 中 的 任意 位 置 。 成 员 m_len 指 示 了 从 m_data 开 始 的 数据 的 字 市 数 。 图 1-6 是 这 
类 mbuf 的 一 个 例子 。 

在 图 2-1 中 ， 结 构 m_hdr 中 有 六 个 成 员 ， 它 的 总 长 是 20 字 市 。 当 我 们 查看 此 结构 的 C 语 言 
定义 时 (图 2-8)， 会 看 见 前 四 个 成 员 每 个 占用 4 字 市 而 后 两 个 成 员 每 个 占用 2 字 市 。 在 图 2-1 中 我 
们 没有 区 分 4 字 市 成 员 和 2 字 市 成 员 。 

2) 第 二 类 mbuf 的 m_flags 值 是 M_PKTHDR， 它 指示 这 是 一 个 分 组 首部 ， 描 述 一 个 分 组 数 
据 的 第 一 个 mbuf。 数 据 仍然 保存 在 这 个 mbuf 中 ， 但 是 由 于 分 组 首部 占用 了 8 字 闻 ， 只 有 100 字 
方 的 数据 可 存储 在 这 个 mbuf 中 (在 m_pktdat 数 组 中 )。 图 1-10 是 这 种 mbuf 的 一 个 例子 。 

成 员 m_pkthdr .1en 的 值 是 这 个 分 组 的 mbuf 链 表 中 所 有 数据 的 总 长 度 : 所 有 通过 m_next 
指针 链接 的 mbuf 的 m_len 值 的 和 ， 如 图 1-8 所 示 。 输 出 分 组 没有 使 用 成 员 m_pkthdr .rcvif， 
但 对 于 接收 的 分 组 ， 它 包含 一 个 指 癌 接收 接口 Lfnet 结 构 ( 图 3-6) 的 指针 。 

3) 下 一 种 mbuf 不 包含 分 组 首部 (没有 设置 M7 PKTHDR)， 但 包含 超过 208 字 节 的 数据 ， 这 时 
用 到 一 个 叫 “ 徐 ”的 外 部 缓存 (设置 M_EXT)。 在 此 mbuf 中 仍然 为 分 组 首部 结构 分 配 了 空间 ， 
但 没有 用 在 图 2-1 中 ， 我 们 用 阴影 显示 出 来 。Net/3 分 配 一 个 大 小 为 1024 字 市 或 2048 字 市 的 
符 ， 而 不 是 使 用 多 个 mbuf 来 保存 数据 (第 一 个 带 有 100 字 节 数 据 ， 其 余 的 每 个 带 有 108 字 节 数 
据 )。 在 这 个 mbuf 中 ， 指 针 m_data 指 向 这 个 和 族 中 的 某 个 位 置 。 

Net/3 版 本 支持 七 种 不 同 的 结构 。 定 义 了 四 种 1024 字 节 的 得 (惯例 值 )， 三 种 2048 字 节 的 徐 。 
习惯 上 用 1024 字 市 的 目的 是 市 约 存 储 絮 : 如 果 禾 的 大 小 是 2048 字 市 ， 对 于 以 太 网 分 组 (最 大 
1500 字 市 )， 每 个 簇 大 约 有 四 分 之 一 没有 用 。 在 27.5 市 中 我 们 会 看 到 Net/3 TCP 发 送 的 每 个 TCP 
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TROCEEMORKATGEE— Rh, PRESA SEHUKU210247E SE, 8E 15005E AAR IU ULP 
三 分 之 一 未 用 。 但 是 [Mogul.1993， 图 15-15] 显 示 了 当 在 以 太 网 中 发 送 最 大 帧 而 不 是 1024 字 节 
的 帧 时 能 明显 提高 以 太 网 的 性 能 。 这 就 是 一 种 性 能 /存储 器 互 换 。 老 的 系统 使 用 1024 字 节 的 徐 
来 节约 存储 器 ， 而 拥有 廉价 存储 器 的 新 系统 用 2048 字 节 的 复 来 提高 性 能 。 在 本 书 中 我 们 假定 
一 禾 的 大 小 是 2048 字 贡 。 


mbuf() mbuf() 
m next 
m nextpkt 
m len m hdr() 
Tm (20 字 市 ) 
ur faroe 
m_flags 
p m pkthdr.len Jor 
Oooo | |mpkthar rcvif] (835) 





m ext.ext free jm ext() 


(12*E 3) 
m ext.ext size 


108 字 节 的 100 字 市 的 
缓存 : 缓存 : 


m dat m.pktdat 


` 
Kary 


Pory 





20481: H8) $c 
2048E 35095 (外 部 缓存 ) 
(外 部 缓存 ) 


图 2-1 根据 不 同 m_flags 值 的 四 种 不 同类 型 的 mbuf 


然而 ， 我 们 所 说 的 “ 竹 ”(cluster) 用 过 不 同 的 名 字 。 常 量 MCLBYTES 是 这 些 缓存 
(1024 或 2048) 的 大 小 ， 操 作 这 些 缓存 的 宏 的 名 字 是 MCLGET、MCLRLLOC 和 
MCLEFREBE。 这 就 是 之 所 以 称 它 们 为 “ 族 的 原因 。 但 我 们 还 看 到 mbuf 的 标志 是 
M EXT，,， 它 代表 “外 部 的 ”缓存 。 最 后 ，[Leffler et al. 1989] 称 它们 为 映射 页 
(mapped page)。 这 后 一 种 称 法 来 源 于 它们 的 实现 ， 在 2.9 节 我 们 会 看 到 当 要 求 一 个 副 
本 时 ， 这 些 旋 是 可 以 共享 的 。 , 

我 们 可 能 会 布 望 这 种 类 型 的 mbuf 的 m len 的 最 小 值 是 209 而 不 是 我 们 在 图 中 所 示 
的 208。 这 是 指 ，208 字 节 数 据 的 记录 是 可 以 存放 在 两 个 nbuf 中 的 ， 第 一 个 mbuf 存 放 
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100 字 节 ， 第 二 个 mbuf 存 放 108 字 节 。 但 在 源 代码 中 有 一 个 差错 : 若 超过 或 等 于 208 就 

分 配 一 个 给 。 

4) 最 后 一 类 mbuf 包 含 一 个 分 组 首部 ， 并 包含 超过 208 字 节 的 数据 。 同 时 设置 了 标志 
M_PKTHDR 和 M_EXT。 

对 于 图 2-1， 我 们 还 有 另外 几 点 需要 说 明 : 

。mbuf 结 构 的 大 小 总 是 128 字 市 。 这 意味 着 图 2-1 右 边 两 个 mbuf 在 结构 m_ext 后 面 的 未 用 

空间 为 88( 即 128 一 20 一 8 一 12) 字 节 。 

* 既然 有 些 协 议 (例如 UDP) 人 允许 零 长 记录 ， 当 然 就 可 以 有 m_1en 为 0 的 数据 缓存 。 

*。 在 每 个 mbuf 中 的 成 员 m_data 指 向 相应 缓存 的 开始 (mbuf 缓 存 本 身 或 一 个 化)。 这 个 指针 

能 指向 相应 缓存 的 任意 位 置 ， 不 一 定 是 起 始 。 






链 中 的 下 一 个 
mbuf() 链 中 的 下 一 个 mbuf mbuf() mint mbuf() 
n next NULL 
m nextpkt NULL m nextpkt NULL 
42 m len 100 m len 50 
MT. DATA m type MT. DATA m type MT DATA 
M PKTHDR 0 m flags 0 


m pkthdr.len 192 mbuf 
m if|NULL /分 组 首部 







50 字 市 的 数据 








100 字 节 的 数据 
以 太 网 首部 ，IP 
首部 ，UDP 首 部 
mbuf{} 链 中 的 下 一 个 mbuf mbuf{} 
m next NULL EE 
m nextpkt NULL m nextpkt NULL x 
m len 54 m len 1460 20485 RO 






m-type MT HEADER 
m-flags |M.PKTHDR 
m pkthdr.len |1514 mbuf i ue 
m pkthdr.rcvif|NULL 分 组 首部 





1460 字 市 的 数据 





m ext.ext buf 





以 太 网 首部 ，IP Im ext.ext size|2048 
首部 ，TCP 首 部 








图 2-2 在 一 个 队列 中 的 两 个 分 组 : 第 一 个 带 有 192 字 节 的 数据 ， 第 二 个 带 有 1514 字 节 的 数据 
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. AAM AEE ARTER ext.ext_buf FERK hm ext.ext size), 

我 们 在 本 书 采 用 的 大 小 为 2048。 成 员 m_data 和 m_ext .ext_buf 的 值 是 不 同 的 (如 我 们 

所 示 )， 除 非 m_qdata 也 指向 缓存 的 第 一 个 字 市 。 结 构 m_ext 的 第 三 个 成 员 ext_free， 

Net/3 当 前 未 用 。 

。 指针 m_next 把 mbuf 链 接 在 一 起 ， 把 一 个 分 组 (记录 ) 形 成 一 条 mbuf 链 表 ， 如 图 1-8 所 示 。 

。 指 针 m_nextpkt 把 多 个 分 组 (记录 ) 链 接 成 一 个 mbuf 链 表 队 列 。 在 队列 中 的 每 个 分 组 可 

以 是 一 个 单独 的 mbuf， 也 可 以 是 一 个 mbuf 链 表 。 每 个 分 组 的 第 一 个 mbuf 包 含 一 个 分 组 

首部 。 如 果 多 个 mbuf 定 义 一 个 分 组 ， 只 有 第 一 个 mbuf 的 成 员 m_nextpkt 被 使 用 一 一 链 

表 中 其 他 mbuf 的 成 员 m_nextpkt 全 是 空 指 针 。 

图 2-2 所 示 的 是 在 一 个 队列 中 的 两 个 分 组 的 例子 ， 它 是 图 1-8 的 一 个 修改 版 。 我 们 已 经 把 
UDP 数据 报 放 到 接口 输出 队列 中 (显示 出 14 字 节 的 以 太 网 首部 已 经 添加 到 链表 中 第 一 个 mbuf 的 
IP 首 部 前 面 )， 并 且 第 二 个 分 组 已 经 被 添加 到 队列 中 : TCP 段 包含 1460 字 节 的 用 户 数据 。TCP 
数据 包含 在 一 个 簇 中 ， 并 且 有 一 个 mbuf 包 含 了 它 的 以 太 网 、IP 与 TCP 首 部 。 通 过 这 个 禾 ， 我 
们 可 以 看 到 指向 徐 的 数据 指针 (m_data) 不 需要 指向 徐 的 起 始 位 置 。 我 们 所 示 的 队列 有 一 个 头 
指针 和 一 个 尾 指针 ， 这 就 是 Net/3 处 理 接口 输出 队列 的 方法 。 我 们 还 给 有 M_EXT 标 志 的 mbuf 添 
加 了 一 个 m_ext 结 构 ， 并 且 用 阴影 表示 这 个 mbuf 中 未 用 的 pkthdr 结 构 。 


带 有 UDP 数 据 报 分 组 首部 的 第 一 个 mbuf 的 类 型 是 MT DATA， 但 带 有 TCP 报 文 段 
分 组 首部 的 第 一 个 mbuf 的 类 型 是 MT_HEADER。 这 是 由 于 UDP 和 TCP 采 用 了 不 同 的 方 
式 往 数据 中 添加 首部 造成 的 ， 但 没有 什么 不 同 ， 这 两 种 类 型 的 mbuf 本 质 上 一 样 。 链 
表 中 第 一 个 mbuf 的 m flags 的 值 M PKTHDR 指 示 了 它 是 一 个 分 组 首部 。 

仔细 的 读者 可 能 会 注意 到 我 们 显示 一 个 mbuf 的 图 (Net/3 mbuf， 图 2-1) 与 显示 一 个 
Net/1 mbuf 的 图 [Leffler et al. 1989，p.290] 的 区 别 。 这 个 变化 是 在 Net/2 中 造成 的 : 添 
加 了 成 员 m_flags， 把 指针 m_act 改 名 为 m_nextpkt， 并 把 这 个 指针 移 到 这 个 
mbuf 的 前 面 。 

在 第 一 个 mbuf 中 ，UDP 与 TCP 协 议 首部 位 置 的 不 同 是 由 于 UDP 调 用 M_PREPEND 
(图 23-15 和 习题 23.1) 而 TCP 调 用 MGETHDR( 图 26-25) 造 成 的 。 


2.2 代码 介绍 
mbuf 函 数 在 一 个 单独 的 C 文 件 中 ， 并 且 mbuf 宏 与 各 种 mbuf 定 义 都 在 一 个 单独 的 头 文件 中 ， 


如 图 2-3 所 示 。 
mbuf 结 构 、mbuf 宏 与 定义 


图 2-3 本 章 讨论 的 文件 











2.2.1 全 局 变量 


在 本 章 要 介绍 一 个 全 局 变量 ， 如 图 2-4 所 示 。 
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EE 
mbuf 的 统计 信息 (图 2-5) 


图 2-4 本 章 介绍 的 全 局 变量 






2.2.2 统计 
在 全 局 结构 mbstat 中 维护 的 各 种 统计 如 图 2-5 所 示 。 


m clfree 自由 簇 

m clusters 从 页 池 中 获得 的 矮 

m drain 调用 协议 的 释放 (drain) 函 数 来 回收 空间 的 次 数 
m drops 寻找 空间 (未 用 ) 失 败 的 次 数 

m mbufs 从 页 池 ( 未 用 ) 中 获得 的 mbuf 数 

m_mtypes [256] 当前 mbuf 的 分 配 数 : MT xxx 索 引 

m spare 剩余 空间 (未 用 ) 

m wait 等 待 空 间 (未 用 ) 的 次 数 


图 2-5 在 结构 mbstat 中 维护 的 mbuf 统 计 


结构 能 用 命令 netstat -m 检 测 ， 图 2-6 所 示 的 是 一 些 输出 示例 。 关 于 所 用 映射 页 的 数 
量 ， a 全 出 的 两 个 值 是 2/34， 其 含义 分 别 为 : m_clusters (34) 减 m_clfree (32) 一 一 当前 
使 用 的 复数 (2)， 以 及 m_c1lusters(34)。 
分 配给 网 络 的 存储 器 的 千 字 节 数 是 mbuf 存 储 器 字 贡 数 (99 x 12851 1) ES& Tr fil as E AX 
(34 x 2048*r-) BEERUL 1024, vacent ridi PRO x 128 字 及) 加 上 所 用 
徐 的 存储 器 字 节 数 (2 x 2048 字 节 ) 除 以 网 络 存储 器 总 字 刷 数 (80KB)， 再 乘 100。 


99 mbufs in use: 
1 mbufs allocated to data m mtypes[MT DATA] 
43 mbufs allocated to packet headers m mtypes[MT HEADER] 
17 mbufs allocated to protocol control blocks m mtypes[MT PCB] 
20 mbufs allocated to socket names and addresses | m mtypes[MT SONAME] 





18 mbufs allocated to socket options m mtypes[MT SOOPTS] 
2/34 mapped pages in use ( 见 正文 ) 
80 Kbytes allocated to network (208. in use) ( LIF X) 
0 requests for memory denied m drops 
0 requests for memory delayed m wait 
0 calls to protocol drain routines m drain 





图 2-6 mbuf 统 计 例 子 
2.2.3 内核 统计 


mbuf 统 计 显示 了 Net/3 源 代码 中 应 用 的 一 种 通用 技术 。 内 核 在 一 个 全 局 变量 (在 本 例 中 是 结 
构 mbstat) 中 保持 对 某 些 统计 信息 的 跟踪 。 当 内 核 在 运行 时 ， 一 个 进程 (在 本 例 中 是 net stat 
程序 ) 可 以 检查 这 些 统计 。 

不 是 提供 系统 调用 来 获取 由 内 核 维护 的 统计 ， 而 是 进程 通过 读 取 链接 编辑 器 在 内 核 建立 
时 保存 的 信息 来 获得 所 关心 的 数据 结构 在 内 核 中 的 地 址 。 然 后 进程 调用 函数 kvm(3)， 使 用 特 
殊 文 件 /dev/mem 读 取 在 内 核 存 储 嚣 中 的 相应 位 置 。 如 果 内 核 数 据 结 构 从 一 个 版 本 改变 为 下 
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一 个 版 本 ， 任 何 读 取 这 个 结构 的 程序 也 必须 改变 。 
2.3 mbuf 的 定义 


处 理 mbuf 时 ， 我 们 会 反复 遇 到 几 个 常量 。 它 们 的 值 显 示 在 图 2-7 中 。 除 了 MCLBYTES 定 义 
在 文件 /usr/include/machine/param.h 中 外 ， 其 他 所 有 常量 都 定义 在 文件 mbuf .h 中 。 


MCLBYTES 一 个 mbuf 徐 (外 部 缓存 ) 的 大 小 
MHLEN 带 分 组 首部 的 mbuf 的 最 大 数据 量 


MINCLSIZE fr fii $i S P PIC] SEES EC 
MLEN 在 正常 mbuf 中 的 最 大 数据 量 
MSIZE 每 个 mbuf 的 大 小 


图 2-7 mbuf .h 中 的 mbuf 常 量 





2.4 mbuf 结 构 


图 2-8 所 示 的 是 mbuf 结 构 的 定义 。 


; vm = mbufh 
60 /* header at beginning of each mbuf: */ 


61 struct m hdr ( 


62 struct mbuf *mh next; /* next buffer in chain */ 

63 struct mbuf *mh nextpkt; /* next chain in queue/record */ 
64 int mh len; /* amount of data in this mbuf */ 
65 caddr t mh data; /* pointer to data */ 

66 short mh type; /* type of data (Figure 2.10) */ 
67 short mh flags; /* flags (Figure 2.9) */ 

68 ); 


69 /* record/packet header in first mbuf of chain; valid if M PKTHDR set */ 
70 struct pkthdr ( 


TT int len; /* total packet length */ 
Ta struct ifnet *rcvif; /* receive interface */ 
73. Yi 


74 /* description of external storage mapped into mbuf, valid if M EXT set */ 
75 struct m ext ( 


76 caddr t ext buf; /* start of buffer */ 

77 void (*ext free) (); /* free routine if not the usual */ 
78 u int ext size; /* size of buffer, for ext free */ 
79. 3; 

80 struct mbuf ( 

81 struct m hdr m hdr; 

82 union { 

83 struct { 

84 struct pkthdr MH pkthdádr; /* M PKTHDR set */ 

85 union ( 

86 struct m ext MH ext; /* M EXT set */ 

87 char MH databuf [MHLEN] ; 

88 ) MH dat; 

89 ) MH; 

90 char M databuf [MLEN] ; /* !IM PKTHDR, !M EXT */ 

91 ) M dat; 

392. 91 


图 2-8 mbuf 结 构 
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93 #define m next m hdr.mh next 

94 #define m len m hdr.mh len 

95 $define m data m hdr.mh data 

96 #define m type m hdr.mh type 

97 $define m flags m hdr.mh flags 

98 #define m nextpkt m hdr.mh nextpkt 

99 #define m act m nextpkt 
100 $define m pkthdr M dat.MH.MH pkthdr 
101 £define m ext M dat.MH.MH dat.MH ext 
102 #define m pktdat M dat.MH.MH dat.MH databuf 
103 £$define m dat M dat.M databuf 

mbuf.h 
图 2-8 (2x) 


结构 mbuf 是 用 一 个 m_hdr 结 构 跟 着 一 个 联合 来 定义 的 。 如 注释 所 示 ， 联 合 的 内 容 依 赖 于 
标志 M_PKTHDR 和 M EXT, 
93-103 这 11 个 #define 语 句 人 简化 了 对 mbuf 结 构 中 的 结构 与 联合 的 成 员 的 访问 。 我 们 会 看 
到 这 种 技术 普遍 应 用 于 Net/3 源 代码 中 ， 只 要 是 一 个 结构 包含 其 他 结构 或 联合 这 种 情况 。 

我 们 在 前 面 说 明了 结构 mbuf 中 前 两 个 成 员 的 作用 : 指针 m_next 把 mbuf 链 接 成 一 个 mbuf 
链表 ， 而 指针 m_nextpkt 把 mbuf 链 表 链 接 成 一 个 mbuf 队 列 。 

图 1-8 显 示 了 每 个 mbuf 的 成 员 m_len 与 分 组 首部 中 的 成 员 m_pkthdr .len 的 区 别 。 后 者 
是 链表 中 所 有 mbuf 的 成 员 m_len 的 和 。 

图 2-9 所 示 的 是 成 员 m_flags 的 五 个 独立 的 值 。 


M BCAST 作为 链 路 层 广 播发 送 / 接 收 
M EOR 记录 结束 


M EXT 此 mubf 带 有 徐 (外 部 缓存 ) 
M MCAST 作为 链 路 层 多 播发 送 /接收 
M_PKTHDR 形成 一 个 分 组 (记录 ) 的 第 一 个 mbuf 


M COPYFLAGS M PKTHDR/M EOR/M BCAST/M MCAST 


图 2-9 m _ flags 的 值 





我 们 已 经 说 明了 标志 M_EXT 和 M_PKTHDR。M_EOR 在 一 个 包含 记录 尾 的 mbuf 中 设置 。 
Internet 协 议 (例如 TCP) 从 来 不 设置 这 个 标志 ， 因 为 TCP 提 供 无 记录 边界 的 字 节 流 服务 。 但 是 
OSI 与 XNS 运 输 层 要 用 这 个 标志 。 在 插口 层 我 们 会 遇 到 这 个 标志 ， 因 为 这 一 层 是 协议 无 关 的 ， 
并 且 它 要 处 理 来 自 或 发 往 所 有 运输 层 的 数据 。 

当 要 往 一 个 链 路 层 广播 地 址 或 多 播 地 址 发 送 分 组 ， 或 者 要 从 一 个 链 路 层 广 播 地 址 或 多 播 
地 址 接收 分 组 时 ， 在 这 个 mubf 中 要 设置 标志 M_BCAST 和 M_MCAST。 这 两 个 常量 是 协议 层 与 
接口 层 之 间 的 标志 (图 1-3)。 

对 于 最 后 一 个 标志 M_COPYFLAGS， 当 一 个 mbuf 包 含 一 个 分 组 首部 的 副本 时 ， 这 个 标志 
表明 这 些 标志 是 复制 的 

图 2- 10 所 示 的 常量 MT_xxx 用 于 成 员 m_type， 指示 存储 在 mbuf 中 的 数据 的 类 型 。 虽 然 我 
们 总 认为 一 个 mbuf 是 用 来 存放 要 发 送 或 接收 的 用 户 数据 的 ， 但 mbuf 可 以 存储 各 种 不 同 的 数据 
结构 。 回 忆 图 1-6 中 的 一 个 mbuf 被 用 来 存放 一 个 插口 地 址 结构 ， 其 中 的 目标 地 址 用 于 系统 调用 
sendto。 它 的 m_type 成 员 被 设置 为 MT SONAME, 
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不 是 图 2-10 中 所 有 的 mbuf 类 型 值 都 用 于 Net/3。 有 些 已 不 再 使 用 (MT_HTABLE)， 还 有 一 些 
不 用 于 TCP/IP 代 码 中 ,但 用 于 内 核 的 其 他 地 方 。 例 如 ，MT_O00BDATA 用 于 OSI 和 XNS 协 议 ， 
但 是 TCP 用 不 同方 法 来 处 理 带 外 (out-of-band) 数 据 (我 们 在 29.7 节 说 明 )。 当 我 们 在 本 书 的 后 面 
遇 到 其 他 mbuf 类 型 时 会 说 明 它 们 的 用 法 。 









































































MT CONTROL 外 部 数据 协议 报 文 M MBUF 
MT DATA 动态 数据 分 配 M MBUF 
MT FREE 应 该 在 自由 列表 中 M FREE 
MT FTABLE 分 片 重组 首部 M FTABLE 
MT HEADER 分 组 首部 M MBUF 
MT HTABLE IMP 主 机 表 M HTABLE 
MT IFADDR 接口 地 址 M IFADDR 
: MT OOBDATA 加 速 ( 带 外 ) 数据 M MBUF 
MT PCB 协议 控制 块 M PCB 
MT RIGHTS 访问 权限 M MBUF 
MT RTABLE M RTABLE 
MT SONAME M MBUF 
MT SOOPTS M SOOPTS 


MT SOCKET M SOCKET 


图 2-10 成 员 m_type 的 值 


本 图 的 最 后 一 列 所 示 的 M_xxx 值 与 内 核 为 不 同类 型 mbuf 分 配 的 存储 器 片 有 关 。 这 里 有 大 约 
60 个 可 能 的 M_xxx 值 指派 给 由 内 核 冰 数 mal1loc 和 宏 MALLOC 分 配 的 不 同类 型 的 存储 器 空间 。 
图 2-6 所 示 的 是 来 源 于 命令 netstat -m 的 mbuf 分 配 统 计 信息 ， 它 包括 每 种 MT_xxx 类 型 的 统 
it. 命令 vmstat -m 显 示 了 内 核 的 存储 分 配 统 计 ， 包 括 每 个 M_xxx 类 型 的 统计 。 


由 于 mbuf 有 固定 的 长 度 (128 字 节 )， 因 此 对 于 mbuf 的 使 用 有 一 个 限制 一 一 包 念 的 
数据 不 能 超过 108 字 节 。Net/3 用 一 个 mbuf 来 存储 一 个 TCP 协 议 控 制 块 (在 第 24 章 我 们 
会 讨论 )， 这 个 mbuf 的 类 型 为 MT_ PCB。 但 是 4.4BSD 把 这 个 结构 的 大 小 从 108 字 节 增 
加 到 140 健 市 ， 并 为 这 个 结构 使 用 一 种 不 同 的 内 核 存储 器 分 配 类 型 。 

仔细 的 读者 会 注意 到 图 2-10 中 我 们 表明 未 使 用 MT_PCB 类 型 的 mbuf， 而 图 2-6 中 
显示 这 个 类 型 的 计数 不 为 堆 。Unix 域 协议 使 用 这 种 类 型 的 mbuf， 并 且 mbuf 的 统计 功 
能 用 于 所 有 协议 ,而 不 只 是 Internet 协 议 ， 记 住 这 一 点 很 重要 ， 


2.5 简单 的 mbuf 宏 和 函数 


有 20 多 个 宏和 函数 用 来 处 理 mbuf( 分 配 一 个 mbuf， 释 放 一 个 mbuf， 等 等 )。 让 我 们 来 查看 
几 个 宏 与 国 数 的 产 代 码 ， 看 看 它们 是 如 何 实现 的 。 

有 些 操 作 既 提供 了 宏 也 提供 了 函数 。 宏 版 本 的 名 称 是 以 M 开 头 的 大 写字 母 名 称 ， 而 函数 是 
以 m_ 开 始 的 小 写字 母 名 称 。 两 者 的 区 别 是 一 种 典型 的 时 间 一 空间 互 换 。 宏 版 本 在 每 个 被 用 到 
的 地 方 都 被 C 预 处 理 器 展开 (要 求 更 多 的 代码 空间 )， 但 是 它 在 执行 时 更 快 ， 因 为 它 不 需要 执行 
函数 调用 (对 于 有 些 体系 结构 ， 这 是 费时 的 )。 而 对 于 函数 版 本 ， 它 在 每 个 被 调用 的 地 方 变 成 了 
一 些 指令 (参数 压 栈 ， 调 用 函数 等 )， 要 求 较 少 的 代码 空间 ， 但 会 花费 更 多 的 执行 时 间 。 
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2.5.1 m get 函数 


让 我 们 先 看 一 下 图 2-11 中 分 配 mbuf 的 国 数 : m_get。 这 个 函数 仅仅 就 是 宏 MGET 的 展开 。 
PITT RHEIN TRE ETE EE REC EE uipc mbuf.c 
135 m get(nowait, type) 


136 int nowait, type; 

137 4 

138 struct mbuf *m; 

139 MGET (m, nowait, type); 
140 return (m); 

141 ) 


uipc mbuf.c 


图 2-11 m get Át: 分 配 一 个 mbuf 


注意 ，Net/3 代 码 不 使 用 ANSI C 参 数 声明 。 但 是 ， 如 果 使 用 一 个 ANSI C 编 译 路 ， 所 
有 Net/3 系 统 头 文件 为 所 有 的 内 核 函 数 都 提供 了 ANSI C 函 数 原 型 。 例 如 ，<SYys/mbuf .h» 


头 文件 中 包含 这 样 的 行 : 
struct mbuf *m get (int, int); 
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这 个 调用 表明 参数 nowait 的 值 为 M_WRIT 或 M_DONTWRAIT， 它 取决 于 在 存储 器 不 可 用 时 
是 否 要 求 等 待 。 例 如 ， 当 播 口 层 请 求 分 配 一 个 mbuf 来 存储 sendto 系 统 调 用 (图 1-6) 的 目标 地 
址 时 ， 它 指定 M _ WAIT， 因为 在 此 阻塞 是 没有 问题 的 。 但 是 当 以 太 网 设备 驱动 程序 请 求 分 配 一 
个 mbuf 来 存储 一 个 接收 的 帧 时 (图 1-10)， 它 指定 M_DONTWAIT， 因 为 它 是 作为 一 个 设备 中 断 
处 理 来 执行 的 ， 不 能 进入 睡眠 状态 来 等 待 一 个 mbuf。 在 这 种 情况 下 ， 若 存储 器 不 可 用 ， 设 备 


驱动 程序 丢弃 这 个 帧 比较 好 。 


2.5.2 MGETZ 


图 2-12 所 示 的 是 MGET 宏 。 调 用 MGET 来 分 配 存 储 sendto 系 统 调用 (图 1-6) 的 目标 地 址 的 


mbuf 如 下 所 示 : 


MGET (m, M WAIT, MT SONAME); 
if (m == NULL) 
return (ENOBUFS); 


154 #define MGET(m, how, type) ( \ 


155 MALLOC((m), struct mbuf *, MSIZE, mbtypes [type], (how)); \ 
156 if (m) 4 3 

157 (m)-»m type = (type); \ 

158 MBUFLOCK (mbstat.m mtypes[type]-**;) \ 
159 (m)-»m next = (struct mbuf *)NULL; \ 
160 (m)-»m nextpkt = (struct mbuf *)NULL; \ 
161 (m)-»m data = (m)-»m dat; \ 

162 (m)-»m flags = 0; \ 

163 ) else \ 

164 (m) = m retry((how), (type)); \ 

165 ) 


图 2-12 MGETZ: 


mbuf.h 


mbuf.h 
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虽然 调用 指定 了 M_WAIT， 但 返回 值 仍然 要 检查 ， 因 为 ， 如 图 2-13 所 示 ， 等 待 一 个 mbuf 并 
不 保证 它 是 可 用 的 。 
154-157 MGET 一 开始 调用 内 核 宏 MALLOC， 它 是 通用 内 核 存储 器 分 配 右 。 数 组 mbtypes 把 
mbuf 的 MT_xxx 值 转换 成 相应 的 M_xxx 值 (图 2-10)。 若 存储 器 被 分 配 ， 成 员 m_type 被 设置 为 参 
数 中 的 值 。 
158 用 于 跟踪 每 种 mbuf 类 型 统计 的 内 核 结构 加 1(mbstat)。 当 执行 这 句 时 ， 宏 MBUFLOCK 把 它 作 
为 参数 来 改变 处 理 器 优先 级 (图 1-13)， 然 后 把 优先 级 恢复 为 原 值 。 这 防止 在 执行 语句 mbstat .m_ 
mtypes [type] ++; 时 被 网 络 设备 中 断 ， 因 为 mbuf 可 能 在 内 核 中 的 各 层 中 被 分 配 。 考 虑 这 样 一 个 
系统 ， 它 用 三 步 来 实现 C 中 的 一 个 ++ 运 算 : (1) 把 当前 值 装 入 一 个 寄存 器 ; (2) 寄 存 器 加 1; (3) 把 寄 
存 器 值 存 和信 存储器。 假设 计数 器 值 为 77 并 且 MGET 在 插口 层 执行 。 假 设 执 行 了 步骤 1 和 2( 寄 存 器 值 
为 78)， 并 且 一 个 设备 中 断 发 生 。 若 设备 驱动 也 执行 MGET 来 获得 同 种 类 型 的 mbuf， 在 存储 载 中 取 
值 (77)， 加 1(78)， 并 存 回 存储 器 。 当 被 中 断 执行 的 MGET 的 步骤 3 继续 执行 时 ， 它 将 寄存 器 的 值 
(78) 存 入 存储 器 。 但 是 计数 器 应 为 79， 而 不 是 78， 这 样 计数 右 就 被 破坏 了 。 
159-160 两 个 mbuf 指 针 m_next 和 m_nextpkt 被 设置 为 空 指针 。 奎 必要， 由 调用 者 把 这 个 
mbuf 加 入 一 个 链 或 队列 。 
161-162 最 后 ， 数 据 指针 被 设置 为 指向 108 字 节 的 mbuf 缓 存 的 起 始 ， 而 标志 被 设置 为 0。 
163-164 车 内 核 的 存储 器 分 配 调用 失败 ， 调 用 m_retry( 图 2-13)。 第 一 个 参数 是 M_WAIT 或 
M DONTWAIT, 


2.5.3 m retrytfiZi 


图 2-13 所 示 的 是 m_retzy 国 数 。 


uipc mbuf.c 
92 struct mbuf * 


93 m retry(i, t) 
94 int i. 5j 


96 struct mbuf *m; 


97 m reclaim(); 
98 #define m retry(i, t) (struct mbuf *)0 
99 MGET(m, 1i, t); 
100 #undef m retry 
101 return (m); 
102 } 
uipc mbuf.c 


图 2-13 m retryF&Z 


92-97 被 mn_retry 调 用 的 第 一 个 函数 是 m_reclaim。 在 7.4 市 我 们 会 看 到 每 个 协议 都 能 定 
义 一 个 “释放 ”(drain) 国 数 ， 在 系统 缺乏 可 用 存储 器 时 能 被 mn_reclaim 调 用 。 在 图 10-32 中 我 
们 还 会 发 现 当 卫 的 释放 国 数 被 调用 时 ， 所 有 等 待 重新 组 成 卫 数 据 报 的 卫 分 片 被 丢弃 。TCP 的 释 
放 函 数 什么 都 不 做 ， 而 UDP 其 至 就 没有 定义 释放 函数 。 

98-102 因为 在 调用 了 Jm_reclaim 后 有 可 能 得 到 更 多 的 存储 器 ， 所 以 再 次 调用 宏 MGET， 试 
图 获得 mbuf。 在 展开 宏 MGET( 图 2-12) 之 前 ，m_retry 被 定义 为 一 个 空 指针 。 这 可 以 防止 当 存 
储 器 仍然 不 可 用 时 的 无 休止 循环 : 这 个 MGET 展 开会 把 m 设 置 为 空 指针 而 不 是 调用 m_retry 函 
数 。 在 MGET 展 开 以 后 ， 这 个 m_retry 的 临时 定义 就 被 取消 了 ， 以 防 在 此 之 后 有 对 MGET 的 其 
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护 这 些 函 数 和 宏 不 被 中 断 。 但 在 宏 MALLOC 的 开始 有 一 个 splimp， 结 尾 有 一 个 splx。 宏 
MFREE 中 包含 同样 的 保护 机 制 。 由 于 mbuf 在 内 核 的 所 有 层 中 被 分 配 和 释放 ， 因 此 内 核 必须 保 
护 那些 用 于 存储 器 分 配 的 数据 结构 。 

另外 ， 用 于 分 配 和 释放 mbuf 钞 的 安 MCLRALLOC 与 MCLEREE 要 用 一 个 sp1Limp 和 一 个 SP1xX 
包括 起 来 ， 因 为 它们 修改 的 是 一 个 可 用 徐 链 。 

因为 存储 器 分 配 与 释放 及 簇 分 配 与 释放 的 宏 被 保护 起 来 防止 被 中 断 ， 我 们 通常 在 MGET 和 
m_get 这 样 的 函数 和 宏 的 前 后 不 再 调用 sp1 国 数 。 


2.06 m devget 和 m pullupifiZi 


我 们 在 讨论 IP、ICMP、IGMP、UDP 和 TCP 的 代码 时 会 遇 到 函数 m_pullup。 它 用 来 保证 
指定 数目 的 字 节 (相应 协议 首部 的 大 小 ) 在 链表 的 第 一 个 mbuf 中 紧 挨 着 存放 ， 即 这 些 指定 数目 
的 字 节 被 复制 到 一 个 新 的 mbuf 并 紧 接 着 存放 。 为 了 理解 mn_pullup 的 用 法 ， 必 须 查 看 它 的 实 
现 及 相关 的 函数 m_devget 和 宏 mtod 与 4tom。 在 分 析 这 些 问 题 的 同时 我 们 还 可 以 再 次 领会 
Net/3 中 mbuf 的 用 法 。 


2.6.1 m devgettP Zi 


当 接 收 到 一 个 以 太 网 帧 时 ， 设 备 驱 动 程序 调用 函数 m_devget 来 创建 一 个 mbuf 链 表 ， 并 
把 设备 中 的 帧 复制 到 这 个 链表 中 。 根 据 所 接收 的 帧 的 长 度 (不 包括 以 太 网 首部 )， 可 能 导致 4 种 
不 同 的 mbuf 链 表 。 图 2-14 所 示 的 是 前 两 种 。 













mbuf() mbuf() 
NULL NULL 
NULL NULL 
52 85 
MT. DATA MT. DATA 
M PKTHDR M PKTHDR 
m pkthdr.len 52 m pkthdr.len 85 
ptr 


m pkthdr.rcvif |ptr 


UP api OF m 
A LM AE 





52 字 市 的 数据 
(以 IP 首 部 开始 ) 


85 字 市 的 数据 
(以 IP 首 部 开始 ) 


dE ME Fe RE, 
"Ne SFH rg? 


O< RE <84 85 « ros RE < 100 
图 2-14 _ m_aqevget 创 建 的 前 两 种 类 型 的 mbuf 





1) 图 2-14 左 边 的 mbuf 用 于 数据 的 长 度 在 0~84 字 节 之 间 的 情况 。 在 这 个 图 中 ， 我 们 假定 有 352 
字 节 的 数据 : 一 个 20 字 节 的 IP 首 部 和 一 个 32 字 节 的 TCP 首 部 (标准 的 20 字 市 的 TCP 首 部 加 上 12 字 
节 的 TCP 选 项 )， 但 不 包括 TCP 数 据 。 既 然 m devget 返 回 的 mbuf 数 据 从 IP 首 部 开始 ，m_len 的 
实际 最 小 值 是 28: 20 字 节 的 卫 首 部 ，8 字 节 的 UDP 首部 和 一 个 0 长 度 的 UDP 数据 报 。 

m_devget 在 这 个 mbuf 的 开始 保留 了 16 字 市 未 用 。 虽 然 14 字 市 的 以 太 网 首部 不 存放 在 这 
里 ,但 还 是 分 配 了 一 个 14 字 节 的 用 于 输出 的 以 太 网 首部 ， 这 是 同一 个 mbuf， 用 于 输出 。 我 们 
会 遇 到 函数 icmp reflect 和 tcp respond， 它 们 通过 把 接收 到 的 mbuf 作 为 输出 mbuf 来 产 
生 一 个 应 答 。 在 这 两 种 情况 中 ， 接 收 的 数据 报应 该 少 于 84 字 节 ， 因 此 很 容易 在 前 面 保留 16 字 
节 的 空间 ， 这 样 在 建立 输出 数据 报时 可 以 节省 时 间 。 分 配 16 字 节 而 不 是 14 字 有 是 为 了 在 mbuf 
中 用 长 字 对 准 方式 存储 IP 首 部 。 

2) 如 果 数 据 在 85~100 字 节 之 间 ， 就 仍然 存放 在 一 个 分 组 首部 mbuf 中 ， 但 在 开始 没有 16 字 
节 的 空间 。 数 据 存 储 在 数组 m_pktdat 的 开始 ， 并 且 任 何 未 用 的 空间 放 在 这 个 数组 的 后 面 。 
例如 在 图 2-14 右 边 的 mbuf 显 示 的 就 是 这 个 例子 ,假设 有 85 字 市 数据 。 

3) 图 2-15 所 示 的 是 m_devget 创 建 的 第 3 种 mbuf。 当 数据 在 101~207 字 市 之 间 时 ， 要 求 有 
两 个 mbuf。 前 100 字 节 存 放 在 第 一 个 mbuf 中 (有 分 组 首部 的 mbuf)， 而 剩 下 的 存放 在 第 二 个 
mbuf 中 。 在 此 例 中 ， 我 们 显示 的 是 一 个 104 字 节 的 数据 报 。 在 第 一 个 mbuf 的 开始 没有 保留 16 
字 节 的 空间 。 


m pkthdr.len |104 4 字 节 的 数据 
m_pkthdr.rcvif |ptr ELS xs ey 


100 字 节 的 数据 
(以 IP 首 部 开始 ) 





101 « Zi ta JE « 207 


[2-15 m_devget 创 建 的 第 3 种 mbuf 


4) 图 2-16 所 示 的 是 m_devget 创 建 的 第 4 种 mbuf。 如 果 数 据 超 过 或 等 于 208 zH 
(MINCLBYTES)， 要 用 一 个 或 多 个 徐 。 图 中 的 例子 假设 了 一 个 1$S00 字 节 的 以 太 网 帧 。 如 采 
使 用 1024 字 节 的 徐 ， 本 例子 需要 两 个 nbuf， 每 个 mbuf 都 有 标志 M_EXT， 以 及 指 癌 一 个 徐 的 
指针 。 
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2.6.2 mtod 和 dtom 宏 


宏 mtod 和 dtom 也 定义 在 文件 mbuf .h 中 。 它 们 简化 了 复杂 的 mbuf 结 构 表 达 式 。 


Kdefine mtod(m,t) ( (€) ( (m) -»m data)) 


Kdefine  dtom(x) 


mtod 〈( mbuf 到 数据 ) 返回 一 个 指向 mbuf 数 据 的 
指针 ， 并 把 指针 声明 为 指定 类 型 。 例 如 代码 


struct mbuf *m; 
struct ip *ip; 


ip - mtod(m, struct ip *); 
ip-»ip v - IPVERSION; 


fr fii (Embuff'gZxda(m data)fRflip'P. Cini ar X 
求 进行 类 型 转换 ， 然 后 代码 用 指针 ip 引用 IP 首 部 。 
我 们 可 以 看 到 当 一 个 C 结 构 (通常 是 一 个 协议 首部 ) 存 
储 在 一 个 mbuf 中 时 会 用 到 这 个 宏 。 当 数据 存放 在 
mbuf 本 身 (图 2-14 和 图 2-15) 或 存放 在 一 个 得 (图 2-16) 
中 时 ， 可 以 用 这 个 宏 。 

Zidtom (“数据 到 mbuf”) 取得 一 个 存放 在 mbuf 
中 任意 位 置 的 数据 的 指针 ， 并 返回 这 个 mbuf 结 构 本 
身 的 指针 。 例 如 ， 若 我 们 知道 ip 指向 一 个 mbuf 的 数 
据 区 ， 下 面 的 语句 序列 

struct mbuf *m; 

struct ip *ip; 

m = dtom(ip); 
把 指向 这 个 mbuf 开 始 的 指针 存放 到 m 中 。 我 们 知道 
MSIZE(128) 是 2 的 各 ,并 且 内 核 存 储 器 分 配器 总 是 为 
mbuf 分 配 连 续 的 MSIZE 字 市 的 存储 块 ，dt om 仅 仅 
古 清 除 参数 中 指针 的 低位 来 发 现 这 个 mbuf 的 起 始 
位 置 。 


((struct mbuf *)((int)(x) & ~ (MSIZE-1))) 






NULL 
NULL 
1500 


m pkthdr.len 










MT DATA 

M PKTHDR|M EXT 
1500 

ptr 










208 < Hg HE « 2048 
2048*£ 11 














1500 字 节 数 据 
(以 IP 首 部 开始 ) 





图 2-16 m_devget 创 建 的 第 4 种 mbuf 


宏 atom 有 一 个 问题 : 当 它 的 参数 指向 一 个 复 或 在 一 个 外 内 时 ， 如 图 2-16 所 示 ， 它 不 能 正 
确 执 行 。 因 为 那里 没有 指针 从 簇 内 指 回 mbuf 结 构 ， 不 能 使 用 atom。 这 导致 了 下 一 个 函数 


m pullup, 


2.6.35 m_pullup 函 数 和 连续 的 协议 首部 


函数 m_pullup 有 两 个 用 途 。 第 一 个 是 当 一 个 协议 IP、ICMP、IGMP、UDP 或 TCP) 发 现 
在 第 一 个 mbuf 的 数据 量 (m_len) 小 于 协议 首部 的 最 小 长 度 (例如 : IP 是 20，UDP 是 8，TCP 是 
20) 时 ， 调 用 m_pul1lup 是 基于 假定 协议 首部 的 剩余 部 分 存放 在 链表 的 下 一 个 mbuf， 
m_pullup 重 新 安排 mbuf 链 表 ， 使 得 前 N 字 市 的 数据 被 连续 地 存放 在 链表 的 第 一 个 mbuf 中 。N 
是 这 个 函数 的 一 个 参数 ， 它 必须 小 于 或 等 于 100 (MHLEN) 。 如 果 前 N 字 节 连 续 存 放 在 第 一 个 
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mbuf 中 ， 则 可 以 使 用 宏 mtod 和 dtom。 
例如 ， 我 们 在 了 了 输入 例 程 中 会 遇 到 下 面 这 样 的 代码 : 


if (m-»m len < sizeof(struct ip) && 
(ms m pullup(m, sizeof(struct ip))) == 0) ( 
ipstat.ips toosmall-«-; 
goto next; 
) 


ip = mtod(m, struct ip *); 


如 果 第 一 个 mbuf 中 的 数据 量 小 于 20( 标 维 IP 首 部 的 大 小 )，m_pullup 被 调用 。 函 数 m_pullup 
失败 的 原因 有 两 个 : (1) 如 果 它 需要 其 他 mbuf 并 且 调 用 MGET 失 败 ，(2) 如 果 整 个 mbuf 链 表 中 的 
数据 量 总 数 少 于 要 求 的 连续 字 刷 数 ( 即 我 们 所 说 的 VY， 在 本 例 中 是 20)。 通 常 ， 第 二 个 原因 是 主 
要 的 。 在 此 例 中 ， 如 果 m_pul1Lup 失 败 ， 一 个 了 P 了 计数 器 加 1， 并 且 此 了 PP 数 据 报 被 丢弃 。 注 意 ， 
这 段 代 码 假设 失败 的 原因 是 mbuf 链表 中 数据 量 少 于 20 字 节 。 

实际 上 ， 在 这 种 情况 下 ，m_pullup 很 少 能 被 调用 (注意 ，C 语 言 的 && 操 作 符 仅 当 mbuf 长 
度 小 于 期 待 值 时 才 调 用 它 )， 并 且 当 它 被 调用 时 ， 通 常会 失败 。 通 过 查看 图 2-14~ 图 2-16， 我 们 
可 以 找到 原因 : 在 第 一 个 mbuf 中 ， 或 在 徐 中 ， 从 IP 首 部 开始 至 少 有 100 字 节 的 连续 字 节 。 这 允 
许 60 字 市 的 最 大 IP 首 部 ， 并 且 后 面 跟 着 40 字 节 的 TCP 首 部 (其 他 协议 如 ICMP、IGMP 和 UDP 的 
协议 首部 不 到 40 字 市 )。 如 果 mbuf 链 表 中 的 数据 可 用 (分 组 不 小 于 协议 要 求 的 最 小 值 )， 则 所 要 
求 的 字 书 数 总 能 连续 地 存放 在 第 一 个 mbuf 中 。 但 是 ， 如 果 接 收 的 分 组 太 小 (m_len 小 于 期 待 的 
最 小 值 )， 则 m_pullup 被 调用 ， 并 且 它 返回 一 个 差错 ， 因 为 在 mbuf 链 表 中 没有 所 要 求 数目 的 
可 用 数据 量 。 

源 于 伯克利 的 内 核 维护 一 个 叫 MPFail 的 变量 ， 每 次 m_ pullup 失 败 时 ， 它 都 加 

1 。 在 一 个 Net/3 系 统 中 曾经 接收 了 超过 2700 万 的 IP 数 据 报 ， 而 MPFail 只 有 9。 计数 

器 ipstat.ips toosmal1 也 是 9， 并 且 所 有 其 他 协议 计数 器 (ICMP、IGMP、UDP 

和 TCP 等 ) 所 计 的 m_pullup 失 败 次 数 为 0。 这 证 实 了 我 们 的 断言 : 大 多 数 m_pullup 

的 失败 是 因为 接收 的 IP 数 据 报 太 小 。 


2.6.4 m pullup 和 IP 的 分 片 与 重组 


m_pullup 的 第 二 个 用 途 涉 及 IP 和 和 TCP 的 重组 。 假 定 IP 接 收 到 一 个 长 度 为 296 的 分 组 ， 这 
个 分 组 是 一 个 大 的 IP 数 据 报 的 一 个 分 片 。 这 个 从 设备 驱动 程序 传 到 IP 输 入 的 mbuf 看 起 来 像 我 
们 在 图 2-16 中 所 示 的 mbuf: 296 字 市 的 数据 存放 在 一 个 徐 中 。 我 们 将 这 显示 在 图 2-17 中 ，。 

问题 在 于 ， 卫 的 分 片 算法 将 各 分 片 都 存放 在 一 个 双向 链表 中 ， 使 用 了 了 首部 中 的 源 与 目标 卫 
地 址 来 存放 加 前 与 回 后 链表 指针 (当然 ， 这 两 个 了 地 址 要 保存 在 这 个 链表 的 表 头 中 ， 因 为 它们 
还 要 放 回 到 重 逆 的 数据 报 中 。 我 们 在 第 10 章 讨论 这 个 问题 )。 但 是 如 果 这 个 IP 首 部 在 一 个 徐 中 ， 
如 图 2-17 所 示 ， 这 些 链表 指针 会 存放 在 这 个 复 中 ， 并 且 当 以 后 遍历 链表 时 ， 指 向 卫 首 部 的 指 
针 ( 即 指 回 这 个 簇 的 起 始 的 指针 ) 不 能 被 转换 成 指向 mbuf 的 指针 。 这 是 我 们 在 本 节 前 面 提 到 的 
问题 : 如 果 m_daata 指 同一 个 复 时 不 能 使 用 宏 Qtom， 因 为 没有 从 徐 指 回 mbuf 的 指针 。IP 分 片 
不 能 如 图 2-17 所 示 那 样 把 链 指针 存储 在 徐 中 。 
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mbuf() 


m nextpkt NULL 
m len 296 


m type MT DATA 


M PKTHDR|M EXT 
m pkthdr.len 296 
ptr 


m ext.ext free|NULL 
1ze|2048 






VAM 


204835 
图 2-17 一 个 长 度 为 296 的 IP 分 片 


为 解决 这 个 问题 ， 当 接收 到 一 个 分 片 时 ， 若 分 片 存 放 在 一 个 复 中 ，IP 分 片 例 程 总 是 调用 
m_pullup。 它 强行 将 20 字 节 的 卫 首 部 放 到 它 自己 的 mbuf 中 ， 代 码 如 下 : 
if (m-»m flags & M EXT) ( 
if ((m = m pullup(m, sizeof(struct ip))) == 0) ( 
ipstat.ips toosmall--; 
goto next; 
) 
ip  mtod(m, struct ip *); 


) 


图 2-18 所 示 的 是 在 调用 了 m_pullup 后 得 到 的 mbuf 链 表 。m_pullup 分 配 了 一 个 新 的 
mubf， 挂 在 链表 的 前 面 ， 并 从 簇 中 取 走 40 字 市 放 入 这 个 新 的 mbuf 中 。 取 40 字 市 而 不 是 仅 要 求 
的 20 字 节 ， 是 为 了 保证 以 后 在 IP 把 数据 报 传 给 一 个 高 层 协议 (例如 ICMP、IGMP、UDP 或 TCP) 
时 ， 高 层 协议 能 正确 处 理 。 采 用 不 可 思议 的 40( 图 7-17 中 的 max_protohdr) 是 因为 最 大 协议 
首部 通常 是 一 个 20 字 节 的 卫 了 首部 和 一 个 20 字 节 的 TCP 首 部 的 组 合 (这 假设 其 他 协议 族 例如 OSI 
协议 并 不 编译 到 内 核 中 )。 l 

在 图 2-18 中 ，IP 分 片 算法 在 左边 的 mbuf 中 保存 了 一 个 指向 IP 首 部 的 指针 ， 并 且 可 以 用 
dtom 将 这 个 指针 转换 成 一 个 指向 mbuf 本 身 的 指针 。 
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mbuf() mbuf() 
monext ^ NULL 
NULL m nextpkt NULL 
40 m len 256 
mtype Mr DATA m type |Mr Dama 


M. PKTHDR 
m pkthdr.len 296 











双向 链表 双向 链表 m ext.ext size|2048 
数据 报 的 20 字 节 Eo 
meena EE 
ecu s 1 ETC ONE QS 





图 2-18 调用 m_pullup 后 的 长 度 为 296 的 IP 分 片 


2.6.5 TCP 重 组 避免 调用 m_ pullup 


重组 TCP 报 文 段 使 用 一 种 不 同 的 技术 而 不 是 调用 m_pullup。 这 是 因为 m_pullup 开 销 较 
X: 分 配 存储 器 并 且 数 据 从 一 个 复 复 制 到 一 个 mbuf 中 。TCP 试 图 尽 可 能 地 避免 数据 的 复制 。 

卷 1 的 第 19 章 提 到 大 约 有 一 半 的 TCP 数 据 是 批量 数据 (通常 每 个 报 文 让 有 512 字 节 或 更 多 字 
节 的 数据 )， 并 且 另 一 半 是 交互 式 数 据 ( 这 里 面 有 大 约 90% 的 报 文 段 包含 不 到 10 字 市 的 数据 )。 
因此 ， 当 TCP 从 IP 接 收报 文 段 时 ， 它 们 通常 是 如 图 2-14 左 边 所 示 的 格式 (一 个 小 量 的 交互 数据 ， 
存储 在 mbuf 本 身 ) 或 图 2-16 所 示 的 格式 (批量 数据 ， 存 储 在 一 个 簇 中 )。 当 TCP 报 文 段 失 序 到 达 
时 ， 它 们 被 TCP 存 储 到 一 个 双 内 链表 中 。 如 了 分 片 一 样 ,在 IP 首 部 的 字段 用 于 存放 链表 的 指针 ， 
既然 这 些 字段 在 TCP 接 收 了 JP 数据 报 后 不 再 需要 , 这 完全 可 行 。 但 当 了 了 首部 存放 在 一 个 得 中 时 ， 
要 将 一 个 链表 指针 转换 成 一 个 相应 的 mbuf 指 针 ， 这 时 会 引起 同样 的 问题 (图 2-17)。 

为 解决 这 个 问题 ， 在 27.9 节 中 我 们 会 看 到 TCP 把 mbuf 指 针 存 放 在 TCP 首 部 中 的 一 些 未 用 的 
字段 中 ， 提 供 一 个 从 徐 指 回 mbuf 的 指针 来 避免 对 每 个 失 序 的 报 文 段 调用 m_pullup。 如 有 果 IP 
首部 包含 在 mbuf 的 数据 区 (图 2-18)， 则 这 个 回 指 指 针 是 无 用 的 ， 因 为 宏 dtom 对 这 个 链表 指针 
会 正常 工作 。 但 如 果 了 P 首 部 包含 在 一 个 得 中 ， 这 个 回 指 指针 将 被 使 用 。 当 我 们 在 讨论 27.9 节 的 
tcp_reass 时 ， 会 研究 实现 这 种 技术 的 源 代码 。 
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2.6.6 m pullup 使 用 总 结 
我 们 已 经 讨论 了 关于 使 用 m_pul1lup 的 三 种 情况 : 


。 大 多 数 设 备 驱 动 程序 不 把 一 个 IP 数 据 报 的 第 一 部 分 分 割 到 几 个 mbuf 中 。 假 设 协 议 首部 都 
紧 挨 着 存放 ， 则 在 每 个 协议 (IP、ICMP、IGMP、UDP 和 TCP) 中 调用 m_pullup 的 可 能 
性 很 小 。 如 果 调 用 m_pullup， 通常 是 因为 IP 数 据 报 太 小 ， 并 且 m_pullup 返 回 一 个 差 


错 ， 这 时 数据 报 被 丢弃 ， 并 且 差 错 计 数 大 加 1。 


“对 于 每 个 接收 到 的 IP 分 片 ， 当 IP 数 据 报 被 存放 在 一 个 族 中 时 ，m_pullup 被 调用 。 这 意味 


着 几乎 对 于 每 个 接收 的 分 片 都 要 调用 m_pullup， 因 为 大 多 数 分 片 的 长 度 大 于 208 FH, 


* 只 要 TCP 报 文 段 不 被 IP 分 片 ， 接 收 的 TCP 报 文 段 不 论 是 否 失 序 ， 都 不 需 调用 m_pullup。 


这 是 避免 IP 对 TCP 分 片 的 一 个 原因 。 
2.7 mbuf 安 和 函数 的 小 结 


在 操作 mbuf 的 代码 中 ， 我 们 会 遇 到 图 2-19 中 所 列 的 宏和 图 2-20 中 所 列 的 国 数 。 图 2-19 中 的 
宏 以 函数 原型 的 形式 显示 ， 而 不 是 以 #define 形 式 来 显示 参数 的 类 型 。 由 于 这 些 宏和 函数 主 
要 用 于 处 理 mbuf 数 据 结 构 并 且 不 涉及 联网 问题 ， 因 此 我 们 不 查看 实现 它们 的 源 代 码 。 还 有 男 
外 一 些 mbuf 宏 和 函数 用 于 Net/3 源 代码 的 其 他 地 方 ， 但 由 于 我 们 在 本 书 中 不 会 遇 到 它们 ， 因 此 


没有 把 它们 列 于 图 中 。 


MCLGET 获得 一 个 簇 ( 一 个 外 部 缓存 ) 并 将 m 指 向 的 mbuf 中 的 数据 指针 (m_data) 设 置 为 指向 这 个 
徐 。 如 果 存 储 器 不 可 用 ， 返 回 时 不 设置 mbuf 中 的 M_EXT 标 志 


void MCLGET (struct mbuf *m, int nowait); 


MFREE 释放 一 个 mm 指向 的 mbuf。 若 mm 指向 一 个 禾 ( 设 置 了 M_EXT)， gera ain 但 
这 个 徐 并 不 被 释放 ， 直 到 它 的 引用 计数 器 降 为 0( 如 2.9 节 所 述 )。 返 回 叉 的 后 继 ( 由 m- > 
m next 指向， 可 以 为 空 ) 存 放 在 2 中 
void MFREE (struct mbuf *m, struct mbuf *n); 
MGETHDR 分 配 一 个 mbuf， 并 把 它 初始 化 为 一 个 分 组 首部 。 这 个 宏 与 MGET( 图 2-12) 相 似 ， 但 设置 
了 标志 M_PKTHDR， 并 且 数 据 指针 (m_dqaata) 指 向 紧 接 分 组 首部 后 的 100 字 节 的 缓存 
void MGETHDR (struct mbuf *m, int nowait, int type); 
MH ALIGN 设置 包含 一 个 分 组 首部 的 mbuf 的 m_aata， 在 这 个 mbuf 数 据 区 的 尾部 为 一 个 长 度 为 len 
字 节 的 对 象 提供 空间 。 这 个 数据 指针 也 是 长 字 对 准 方 式 的 
void MH ALIGN(struct mbuf *m, int len); 
M PREPEND 在 m 指 向 的 mbuf 中 的 数据 的 前 面 添 加 ien 字 节 的 数据 。 如 果 mbuf 有 空间 ， 则 仅 把 指针 (m_data) 
减 len 字 节 ， 并 将 长 度 (m_len) 增 加 lien 字 节 。 如 果 没 有 足够 的 空间 ， 就 分 配 一 个 新 的 mbuf， 它 
的 m_next 指 针 被 设置 为 m。 一 个 新 mbuf 的 指针 存放 在 m 中 ， 并 且 设 置 新 mbuf 的 数据 指针 使 len 


字 节 的 数据 放置 到 这 个 mbuf 的 尾部 ( 即 调用 MH_ALIGN)。 如 果 一 个 新 mbuf 被 分 配 ， 并 且 原 来 
mbuf 的 分 组 首部 标志 被 设置 ， 则 分 组 首部 从 旧 mbuf 中 移 到 新 mbuf 中 


void M PREPEND(struct mbuf *m, int len, int nowait); 


dtom 将 指向 一 个 mbuf 数 据 区 中 某 个 位 置 的 指针 zx 转换 成 一 个 指向 这 个 mbuf 的 起 始 的 指针 
struct mbuf *dtom(void *x); x 


mtod 将 m 指 癌 的 mbuf 的 数据 区 指针 的 类 型 转换 成 type 类 型 
type mtod(struct mbuf *m, type); 


图 2-19 “我们 在 本 书 中 会 遇 到 的 mbuf 安 
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K * 说 Hj 
m adj 从 m 指 向 的 mbuf 链 表 中 移 走 /len 字 节 的 数据 。 如 果 len 是 正 数 ， 则 所 操作 的 是 紧 排 在 这 个 


mbuf 的 开始 的 len 字 市 数据 ， 否 则 是 紧 排 在 这 个 mbuf 的 尾部 的 len 绝 对 值 字 市 数据 


void m adj(struct mbuf *m, int len); 


m cat 把 由 n 指 向 的 mbuf 链 表 链 接 到 由 mm 指向 的 mbuf 链 表 的 尾部 。 当 我 们 讨论 IP 重 装 时 (第 10 
章 ) 会 过 到 这 个 函数 
void m cat(struct mbuf *m, struct mbuf *n); 
这 是 m_copym 的 三 参数 版 本 ， 它 隐 含 的 第 4 个 参数 的 值 为 MY_DONTWAIT 


int offset, 





m copy 












struct mbuf * m copy(struct mbuf *m, int len); 


Pumt& In] )mbuf E rp E flent T SCR SU cept AARTE. Ju mbufik Ze Bc DOE Ta RJ 
offset 字 市 开始 复制 


void m copydata (struct mbuf *m, 





m copydata 







int offset, int len, caddr t cp); 








m copyback 

















从 cp 指向 的 缓存 复制 len 字 节 的 数据 到 由 mm 指向 的 mbuf， 数 据 存储 在 mbuf 链 表 起 始 
offset 字 说 后 。 必 要 时 ，mbuf 链 表 可 以 用 其 他 mbuf 来 扩充 
void m copyback(struct mbuf *m: int offset, int len, caddr t cp); 
m copym 创建 一 个 新 的 mbuf 链 表 ， 并 从 m 指 向 的 mbuf 链 表 的 开始 offset 处 复制 len 字 节 的 数据 。 
一 个 新 mbuf 链 表 的 指针 作为 此 函数 的 返回 值 。 如 朵 len 等 于 常量 M_COPYALL， 则 从 这 
个 mbuf 链 表 的 offset 开 始 的 所 有 数据 都 将 被 复制 。 在 2.9 市 中 ， 我 们 会 更 详细 地 介绍 这 个 
图 数 
struct mbuf *m copym(struct mbuf *m, int offset, int len, int nowait); 
m devget 创建 一 个 带 分 组 首部 的 mbuf 链 表 ， 并 返回 指向 这 个 链表 的 指针 。 这 个 分 组 首部 的 len 
和 rcvif 字 段 被 设置 为 len 和 i 如。 调用 函数 copy 从 设备 接口 (由 buf 指 向 ) 将 数据 复制 到 mbuf 
中 。 如 果 copy 是 一 个 空 指针 ， 调 用 国 数 bcopy。 由 于 尾部 协议 不 再 被 支持 ，o 太 为 0。 我 
们 在 2.6 市 讨论 了 这 个 函数 
struct mbuf *m devget (char *buf, int len, int off, struct ifnet *ifp, 
void (*eopy) (const void *, void *, u intj); 
m free Z:MFREERJ ER ZA hi A 
struct mbuf *m free(struct mbuf *m); 
m freem 释放 m 指 问 的 链表 中 的 所 有 mbuf 
void m freem(struct mbuf * m); 
m get 宏 MGET 的 函数 版 本 。 我 们 在 图 2-12 中 显示 过 此 函数 
struct mbuf *m get (int nowait, int type); 
m getclr Jc ER TCR] HE ZEMGETOK £358] — ^ mbuf, JFBEI087F 5872€ fein e 
struct mbuf *m getclr(int nowait, int type); 
m gethdr Z:MGETHDRII ER Zh hk Æ 
struct mbuf *m gethdr(int nowait, int type); 
m pullup 重新 排列 由 mm 指向 的 mbuf 中 的 数据 ， 使 得 前 len 字 市 的 数据 连续 地 存储 在 链表 中 的 第 一 





个 mbuf 中 。 如 果 这 个 函数 成 功 ， 则 宏 mtod 能 返回 一 个 正好 指向 这 个 大 小 为 len 的 结构 的 
指针 。 我 们 在 2.6 方 讨论 了 这 个 函数 


struct mbuf *m pullup (struct mbuf *m, 
图 2-20 RIER E P AS EIBmbufeR Zi 


在 所 有 原型 中 ， 参 数 nowait 都 是 M_WAIT 或 M_DONTWAIT， 参 数 type 是 图 2-10 中 所 示 的 
MT xxx 中 的 一 个 。 






int len); 
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调用 宏 M_PREPEND 的 例子 如 : 从 图 1-7 转 换 到 图 1-8 的 过 程 中 ， 当 IP 和 UDP 首部 被 添加 到 
数据 的 前 面 时 要 调用 这 个 宏 ， 因 为 另 一 个 mbuf 要 被 分 配 。 但 当 这 个 宏 再 次 被 调用 (从 图 1-8 转 
换 成 图 2-2) 来 添加 以 太 网 首部 时 ， 在 那个 mbuf 中 已 有 存放 这 个 首部 的 空间 。 

m copydata 的 最 后 一 个 参数 的 类 型 是 caddr 七 ， 它 代表 “内 核 地 址 。 这 个 

数据 类 型 通常 定义 在 <sys/types.h> 中 , 为 char *。 它 最 初 在 内 核 中 使 用 ， 但 被 

某 些 系统 调用 使 用 时 被 外 露出 来 。 例 如 mmap 系 统 调 用 ， 不 论 是 4.4BSD 或 SVR4 都 把 

caddr 七 作为 第 一 个 参数 的 类 型 并 作为 返回 值 类 型 。 


2.8 Net/3 联 网 数据 结构 小 结 


本 节 总 结 我 们 在 Net/3 联 网 代码 中 要 遇 到 的 数据 结构 类 型 。 在 Net/3 内 核 中 会 用 到 其 他 数 
据 结 构 ( 感 兴趣 的 读者 可 以 查看 头 文件 <sys/dqueue.h>)， 但 下 面 这 些 是 我 们 在 本 书 中 要 遇 
到 的 。 
1) 一 个 mbuf 链 : 一 个 通过 m_next 指 针 链接 的 mbuf 链 表 。 我 们 已 经 看 过 几 个 这 样 的 例子 。 
2) 只 有 一 个 头 指针 的 mbuf 链 的 链表 。mbuf 链 通过 每 个 链 的 第 一 个 mbuf 中 的 m_nextpkt 
指针 链接 起 来 。 
图 2-21 所 示 的 就 是 这 种 链表 。 这 种 数据 结构 的 例子 是 一 个 插口 发 送 缓 存 和 接收 缓存 。 


sockbuf() mbuf() mbufí() 





图 2-21 只 有 头 指针 的 mbuf 链 的 链表 


顶部 的 两 个 mbuf 形 成 这 个 队列 中 的 第 一 个 记录 ， 底 下 三 个 mbuf 形 成 这 个 队列 的 第 二 个 记 
录 。 对 于 一 个 基于 记录 的 协议 ， 如 UDP， 我 们 在 每 个 队列 中 能 遇 到 多 个 记录 。 但 对 于 像 TCP 
这 样 的 协议 ， 它 没有 记录 的 边界 ， 每 个 队列 我 们 只 能 发 现 一 个 记录 (一 个 mbuf 链 可 能 包含 多 
个 mbuf) 。 

把 一 个 mbuf 追 加 到 队列 的 第 一 个 记录 中 要 遍历 所 有 第 一 个 记录 的 mbuf， 直 到 过 到 
m_next 为 空 的 mbuf。 而 追加 一 个 包含 新 记录 的 mbuf 链 到 这 个 队列 中 ， 要 查找 所 有 记录 直到 
遇 到 m_nextPpkt 为 空 的 记录 。 

3) 一 个 有 头 指针 和 尾 指针 的 mbuf 链 的 链表 。 

图 2-22 显 示 的 是 这 种 类 型 的 链表 。 我 们 在 接口 队列 中 会 遇 到 它 ( 图 3-13)， 并 且 在 图 2-2 中 
已 显示 过 它 的 一 个 例子 。 与 图 2-21 相 比 仅 有 一 点 改变 : 增加 了 一 个 尾 指针 来 简化 增加 一 个 新 
记录 的 操作 。 
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mbuf () mbuf() 


[monext — NULL 
| tal 4 m nextpkt m nextpkt | NULL 
mbuf() mbuf() mbuf() 
mnext — |NULL 
m nextpkt | NULL m nextpkt | NULL m nextpkt | NULL 


图 2-22 有 头 指 针 和 尾 指针 的 链表 
4) 双 回 循环 链表 。 
图 2-23 所 示 的 是 这 种 类 型 的 链表 ， 我 们 在 IP 分 片 与 重 装 (第 10 章 )、 协 议 控 制 块 (第 22 章 ) 及 
TCP 失 序 报 文 段 了 从 列 (27.9 节 ) 中 会 遇 到 这 种 数据 结构 。 





图 2-23 双 回 循环 链表 


在 这 个 链表 中 的 元 素 不 是 mbuf， 它 们 是 一 些 定 义 了 两 个 相 邻 的 指针 的 结构 : 一 个 next 指 
针 跟 着 一 个 prev( 代 表 previous) 指 针 。 两 个 指针 必须 在 结构 的 起 始 处 。 如 果 链 表 为 空 ， 表 头 的 
next 和 prev 指 针 都 指向 这 个 表 头 本 身 。 

在 图 中 我 们 简单 地 把 向 后 指针 指向 另 一 个 向 后 指针 。 显 然 所 有 的 指针 应 包含 它 所 指向 的 
结构 的 地 址 ， 即 同 前 指针 的 地 址 (因为 向 前 和 辐 后 指针 总 是 放 在 结构 的 起 始 处 )。 

这 种 类 型 的 数据 结构 能 方便 地 向 前 向 后 遍历 ， 并 允许 方便 地 在 链表 中 任何 位 置 进行 插入 
与 删除 。 

调用 函数 insque 和 zemque( 图 10-20) 来 对 这 个 链表 进行 插入 和 删除 。 


2.9 m_copy 和 艇 引用 计数 


使 用 徐 的 一 个 明显 好 处 就 是 在 要 求 包含 大 量 数据 时 能 减少 mbuf 的 数目 。 例 如 ， 如 果 不 使 
HER. 要 有 10 个 mbuf 才 能 包含 1024 字 市 的 数据 第 一 个 mbuf 带 有 100 字 节 的 数据 ， 后 面 8 个 每 
个 存放 108 字 市 数据 ， 最 后 一 个 存放 60 字 市 数据 。 分 配 并 链接 10 个 mbuf 比 分 配 一 个 包含 1024 
字 市 艇 的 mbuf 开 销 要 大 。 徐 的 一 个 潜在 缺点 是 浪费 空间 。 在 我 们 的 例子 中 使 用 一 个 簇 (2048 + 
128) 要 2176 字 节 ， 而 1280 字 节 不 到 1 钞 (10 x 128), 

簇 的 另外 一 个 好 处 是 在 多 个 mbuf 间 可 以 共享 一 个 徐 。 在 TCP 输 出 和 m_copy 函 数 中 我 们 遇 
到 过 这 种 情况 ， 但 现在 我 们 要 更 详细 地 说 明 这 个 问题 。 
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例如 ， 假 设 应 用 程序 执行 一 个 write， 把 4096 字 节 写 到 TCP 插 口中 。 假 设 插口 的 发 送 缓 
存 原 来 是 空 的 ， 接 收 窗口 至 少 有 4096， 则 会 发 生 以 下 操作 。 插 口 层 把 前 2048 字 节 的 数据 放 在 
一 个 徐 中 ， 并 且 调 用 协议 的 发 送 例 程 。TCP 发 送 例 程 把 这 个 mbuf 追 加 到 它 的 发 送 缓存 ， 如 图 
2-24 所 示 ， 并 调用 tcp_output。 结 构 socket 中 包含 sockbuf 结 构 ， 这 个 结构 中 存储 着 发 
送 缓存 mbuf 链 的 链表 表 头 : so snd.sb mb, 


Socket() mbufí() 








so snd.sb mb 
CORO AA E 






M PKTHDR|M EXT 
2048 
NULL 
NULL 


m ext.ext size|2048 







2048F T 





2048*r HB CH 






图 2-24 E2048 FI HSBUTCP4R O AG TE 


对 这 个 连接 (典型 的 是 以 太 网 ) 而 言 ， 假 设 一 个 TCP 最 大 报 文 段 大 小 (MSS) 为 1460， 
tcp_output 建 立 一 个 报 文 段 来 发 送 包含 前 1460 字 市 的 数据 。 它 还 建立 一 个 包含 IP 和 TCP 首 
部 的 mbuf， 为 链 路 层 首 部 (16 字 市 ) 预 留 了 空间 ， 并 将 这 个 mbuf 链 传 给 IP 输 出 。 在 接口 输出 队 
列 尾部 的 mbuf 链 显示 在 图 2-25 中 。 

在 1.9 市 的 UDP 例 子 中 ，UDP 用 mbuf 链 来 存放 数据 报 ， 在 前 面 添加 一 个 mbuf 来 存放 协议 首 
部 ， 并 把 此 链 传 给 IP 输 出 。UDP 并 不 把 这 个 mbuf 保 存在 它 的 发 送 缓存 中 。 而 TCP 不 能 这 样 做 ， 
因为 TCP 是 一 个 可 靠 协 议 ， 并 且 它 必须 维护 一 个 发 送 数 据 的 副本 ， 直 到 数据 被 对 方 确认 。 

在 这 个 例子 中 ，tcp_output 调 用 函数 mn_copy， 请 求 复制 1460 字 市 的 数据 ， 从 发 送 缓 
存 起 始 位 置 开始 。 但 由 于 数据 被 存放 在 一 个 徐 中 ，m_copy 创 建 一 个 mbuf( 图 2-25 的 右 下 侧 ) 并 
且 对 它 初始 化 ， 将 它 指 向 那个 已 存在 的 簇 的 正确 位 置 (此 例 中 是 徐 的 起 始 处 )。 这 个 mbuf 的 长 
度 是 1460 字 市 ， 虽 然 有 男 外 588 字 市 的 数据 在 禾 中 。 我 们 所 示 的 这 个 mbuf 链 的 长 度 是 1514， 
包括 以 太 网 首部 、IP 首 部 和 TCP 首 部 。 

在 图 2-25 的 右 下 侧 我 们 还 显示 了 这 个 mbuf 包 含 一 个 分 组 首部 ， 但 它 不 是 链 中 的 

第 一 个 mbuf。 当 m_copy 复 制 一 个 包含 分 组 首部 的 mbuf 并 且 从 原来 mbuf 的 起 始 地 址 

开始 复制 时 ， 分 组 首部 也 被 复制 下 来 。 因 为 这 个 mbuf 不 是 链 中 的 第 一 个 mbuf， 这 个 
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额外 的 分 组 首部 被 忽略 。 而 在 这 个 额外 的 分 组 首部 中 的 m_pkthdr.len 的 值 2048 也 
被 忽略 。 














mbufí) 
E 5 m next NULL 
e i m_nextpkt NULL 
mien 2048 
2 E 


MT. DATA 
M. PKTHDR IM. EXT 


m pkthdr.len 2048 

m pkthdr.rcvif|NULL 
TCP 发 送 缓存 

m ext.ext free|NULL 
m ext.ext size|2048 






2048F 17i 


2048 字 市 的 数据 





















mbuf{} mbuf{} 
monext — NULL 
m nextpkt NULL 
m len m len 1460 
M PKTHDR M PKTHDR|M EXT 






m pkthdr.len 1514 m pkthdr.len 2048 


bern im. pkthdr -rcvif NULL 
FESTINA im ext.ext free|NULL 
队列 以 太 网 首部 ， 了 





m ext.ext size|2048 


首部 ，TCP 首 部 





图 2-25 TCP 插 口 发 送 缓存 和 接口 输出 队列 中 的 报 文 段 


这 个 共享 的 簇 避 人 免 了 内 核 将 数据 从 一 个 mbuf 复 制 到 另 一 个 mbuf 中 一 一 这 节约 了 很 多 开 
销 。 它 是 通过 为 每 个 徐 提 供 一 个 引用 计数 来 实现 的 ， 每 次 另 一 个 mbuf 指 向 这 个 徐 时 计数 加 1， 
当 一 个 徐 释 放 时 计数 减 1。 仅 当 引 用 计数 到 达 0 时 ， 被 这 个 徐 占 用 的 存储 器 才能 被 其 他 程序 使 
用 (见习 题 2.4)。 | 

例如 ， 当 图 2-25 底 部 的 mbuf 链 到 达 以 太 网 设备 驱动 程序 并 且 它 的 内 容 已 被 复制 给 这 个 设 
备 时 ， 驱 动 程序 调用 m_freem。 这 个 国 数 释放 带 有 协议 首部 的 第 一 个 mbuf， 并 注意 到 链 中 第 
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二 个 mbuf 指 向 一 个 得， 徐 引 用 计数 减 1， 但 由 于 它 的 值 变 成 了 1， 它 仍然 保存 在 存储 器 中 ， 它 
不 能 被 释放 ， 因 为 它 仍 在 TCP 发 送 缓存 中 。 









socket {} mbuf {} mbufí) 
m len 2048 mien ^ |2048 
m flags M-ERT Ur m flags MEET n 


m pkthdr.len |2048 


m pkthdr.rcvif|NULL 


m ext.ext free|NULL 
m ext.ext size|2048 


m pkthdr.len 2048 
m pkthdr.rcvif|NULL 
m ext.ext free|NULL 
m ext.ext size|2048 








— 20483 2048-7558 


1460 字 市 的 数据 


2048 字 市 的 数据 
588 字 市 的 数据 
mbufí) mbufí) mbuf() 
anpe — wur || [ncnexspkt — mz mcnextpkt — |n 
m len 54 m len 588 872 
mvpe [ur meaner (miyose |ue oara | type jn oara 






m pkthdr.len 1514 


m pkthdr.rcvif|NULL 


mcflags  |mekraor [m flags — — M ExT mcflags — |mexr 


t qA Pe n. PE 
te epis T WE 1. 
ee NE. »2 


m ext.ext buf 
m ext.ext free|NULL 
m ext.ext size|2048 





m ext.ext buf 
NULL 


m ext.ext size|2048 


以 太 网 首部 ，IP 
首部 ，TCP 首 部 





图 2-26 用 于 发 送 1460 字 节 TCP 报 文 段 的 mbuf 链 


继续 我 们 的 例子 ， 由 于 在 发 送 缓存 中 剩余 的 588 字 节 不 能 组 成 一 个 报 文 段 ，tcp_output 
在 把 1460 字 刷 的 报 文 段 传 给 IP 后 返回 (在 第 26 革 我 们 会 说 明 在 这 种 条 件 下 tcp_output 发 送 数 
据 的 细 市 )。 插 口 层 继续 处 理 来 自 应 用 程序 的 数据 : 剩 下 的 2048 字 市 被 存放 到 一 个 带 有 一 个 簇 
的 mbuf 中 ，TCP 发 送 例 程 再 次 被 调用 ， 并且 新 的 mbuf 被 追加 到 插口 发 送 缓存 中 。 因 为 能 发 送 
一 个 完整 的 报 文 有 段 ，tcp_output 建 立 男 一 个 带 有 协议 首部 和 1460 字 市 数据 的 mbuf 链 表 ，。 
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m_copy 的 参数 指定 了 1460 字 证 的 数据 在 发 送 缓存 中 的 起 始 位 移 和 长 度 (1460 字 市 )。 这 显示 在 
图 2-26 中 ， 并 假设 这 个 mbuf 链 在 接口 输出 队列 中 (这 个 链 中 的 第 一 个 mbuf 的 长 度 反 映 了 以 太 网 
首部 、IP 首 部 及 TCP 首 部 )。 

这 次 1460 字 下 的 数据 来 目 两 个 复 : 前 588 字 有 来 目 发送 缓存 的 第 一 个 得 ， 而 后 面 的 872 字 
证 来 自发 送 缓 存 的 第 二 个 艇 。 它 用 两 个 mbuf 来 存放 1460 字 市 ,但 m_copy 还 是 不 复制 这 1460 
字 市 的 数据 一 一 它 引 用 已 存在 的 徐 。 

这 次 我 们 没有 在 图 2-26 右 下 侧 的 任何 mbuf 中 显示 分 组 首部 。 原 因 是 调用 m_copy 
的 起 始 位 移 为 零 。 但 在 插口 发 送 缓存 中 的 第 二 个 mbuf 包 含 一 个 分 组 首部 ， 而 不 是 链 
中 的 第 一 个 mbuf。 这 是 函数 sosenda 的 特点 ， 这 个 额外 的 分 组 首部 被 简单 地 忽略 了 。 


我 们 通 篇 会 多 次 遇 到 函数 mn_copy。 虽 然 这 个 名 字 隐 含 着 对 数据 进行 物理 复制 ， 但 如 果 数 
据 被 包含 在 一 个 得 中 ， 则 是 仅 引 用 这 个 徐 而 不 是 复制 。 


2.10 其 他 选择 


mbuf 远 非 完 美 ， 并 且 时 常 遭 到 批评 。 但 不 管 怎 样 ， 它 们 形成 了 所 有 今天 正 使 用 着 的 伯 克 
利 联 网 代码 的 基础 。 

一 种 由 Van Jacobson [Partridge 1993] 完 成 的 Internet 协 议 的 研究 实现 ， 废 除了 复杂 的 支持 
大 量 连 续 缓 存 的 mbuf 数 据 结构 。[Jacobson 1993] 提 出 了 一 种 速度 能 提高 一 到 两 个 数量 级 的 改 
进 方案 ， 还 包括 其 他 改进 及 废除 mbuf。 

mbuf 的 复杂 性 是 一 种 权衡 ， 目 的 是 避免 分 配 固定 长 度 的 大 缓存 ， 因 为 这 样 的 大 缓存 很 少 
能 被 疙 满 。 一 个 VAX-11/780 有 4MB 存 储 如 ， 是 一 个 大 系统 ， 并 且 存 储 器 是 昂贵 的 资源 ， 需 要 
仔细 分 配 ， 在 这 种 情况 下 mbuf 要 进行 设计 。 而 今天 存储 絮 已 不 昂贵 7 焦点 已 经 转 癌 更 高 的 
性 能 和 代码 的 简单 性 。 

mbuf 的 性 能 基于 存放 在 mbuf 中 的 数据 量 。[Hutchinson and Peterson 1991] 表 明 ， 处 理 mbuf 
的 时 间 与 数据 量 不 是 线性 关系 。 


2.11 小 结 


在 本 书 几 乎 所 有 的 函数 中 我 们 都 会 遇 到 mbuf。 它 们 的 主要 用 途 是 在 进程 和 网 络 接口 之 间 
传递 用 户 数据 时 存放 用 户 数据 ， 但 mbuf 还 用 于 保存 其 他 各 种 数据 : 源 地 址 和 目标 地 址 、 插 口 
选项 等 等 。 

根据 M_PKTHDR 和 M_EXT 标 志 是 否 被 设置 ， 这 里 有 4 种 类 型 的 mbuf: 

* 无 分 组 首部 ，mbuf 本 身 带 有 0~108 字 市 数据 ， 

。 有 分 组 首部 ，mbuf 本 身 带 有 0~100 字 市 数据 ， 

无 分 组 首部 ， 数 据 在 禾 ( 外 部 缓存 ) 中 ，; 

。 有 分 组 首部 ， 数 据 在 复 ( 外 部 缓存 ) 中 。 

我 们 查看 了 几 个 mbuf 安 和 国 数 的 源 代 码 ， 但 不 是 所 有 的 mbuf 例 程 源 代码 。 图 2-19 和 图 2-20 
提供 了 我 们 在 本 书 中 遇 到 的 所 有 mbuf 例 程 的 函数 原型 和 说 明 。 

查看 了 我 们 要 遇 到 的 两 个 函数 的 操作 : m devget, 很 多 网 络 设 备 驱 动 程序 调用 它 来 在 
储 一 个 收 到 的 帧 ; m_pullup， 所 有 输入 例 程 调用 它 把 协议 首部 连续 放置 在 一 个 mbuf 中 。 
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Hi —^" mbuffR IR BSEC DAE fE)HEXu xim copy =. Øn, HFTCPH H, HAZE 
输 的 数据 的 副本 要 被 发 送 端 保存 ， 直 到 数据 被 对 方 确 认 。 比 起 进行 物理 复制 来 说 ， 通 过 引用 
计数 ， 共 享 徐 提高 了 性 能 。 
习题 
2.1 在 图 2-9 中 定义 了 M _COPYFLAGS。 为 什么 不 复制 标志 M_EXT? 
2.2 在 2.6 节 中 ， 我 们 列 出 了 m_pu1l1Lup 会 失败 的 两 个 原因 。 实 际 上 有 三 个 原因 。 查 看 这 
个 函数 的 源 代码 (附录 B)， 并 发 现 男 外 一 个 原因 。 
2.3 为 避免 宏 dtom 遇 到 我 们 在 2.6 市 中 所 讨论 的 问题 ， 当 数据 在 簇 中 时 ， 为 什么 不 仅仅 
给 每 个 徐 加 一 个 指向 mbuf 的 回 指 指针 ? 
2.4 既然 一 个 mbuf 徐 的 大 小 是 2 的 需 ( 典 型 的 是 1024 或 2048)， 徐 内 的 空间 不 能 用 于 引用 计 
数 。 查 看 Net/3 的 源 代码 (附录 B)， 并 确定 这 些 引 用 计数 存储 在 什么 地 方 。 
2.5 在 图 2-5 中 ， 我 们 注意 到 两 个 计数 器 m_dqrops 和 m_wait 现 在 没有 实现 。 修 改 mbuf 例 
程 增加 这 些 计 数 器 。 


种 3 章 k D m 


本 章 开始 讨论 Net/3 在 协议 栈 底部 的 接口 层 ， 它 包括 在 本 地 网 上 发 送 和 接收 分 组 的 硬件 与 
软件 。 

我 们 使 用 术语 设备 驱动 程序 来 表示 与 硬件 及 网 络 接口 (或 仅仅 是 接口 ) 通 信 的 软件 ， 网 络 接 
口 是 指 在 一 个 特定 网 络 上 硬件 与 设备 驱动 器 之 间 的 接口 。 

Net/3 接 口 层 试图 在 网 络 协 议和 连接 到 系统 的 网 络 设 备 驱 动 器 间 提 供 一 个 与 硬件 无 关 的 编 
程 接口 。 这 个 接口 层 为 所 有 的 设备 提供 以 下 支持 : 

* 一 套 精 心 定义 的 接口 函数 ， 

。 一 套 标准 的 统计 与 控制 标志 ， 

。 一 个 与 设备 无 关 的 存储 协议 地 址 的 方法 ; 

。 一 个 标准 的 输出 分 组 的 排队 方法 。 

这 里 不 要 求 接 口 层 提 供 可 靠 的 分 组 传输 ， 仅 要 求 提供 最 大 努力 (best-effort) 的 服务 。 更 高 
协议 层 必 须 弥 补 这 种 可 徘 性 缺陷 。 本 昔 说 明 为 所 有 网 络 接 口 维护 的 通用 数据 结构 。 为 了 说 明 
相关 数据 结构 和 算法 ， 我 们 参考 Net/3 中 三 种 特定 的 网 络 接口 。 

1) 一 个 AMD 7990 LANCE 以 太 网 接口 : 一 个 能 广播 局 域 网 的 例子 。 

2) 一 个 串 行 线 IP(SLIP) 接 口 : 一 个 在 异步 串 行 线 上 的 点 对 点 网 络 的 例子 。 

3) 一 个 环 回 接口 : 一 个 把 所 有 输出 分 组 作为 输入 返回 的 逻辑 网 络 。 


3.2 代码 介绍 


通用 接口 结构 和 初始 化 代码 可 在 3 个 头 文件 和 2 个 C 文 件 中 找到 。 在 本 章 说 明 的 设备 专用 初 
始 化 代码 可 在 另外 3 个 C 文 件 中 找到 。 所 有 的 8 个 文件 都 列 于 图 3-1 中 。 


sys/socket.h 地 址 结构 定义 
net/if.h 接口 结构 定义 
net/if dl.h 链 路 层 结 构 定义 
系统 和 接口 初始 化 
















kern/init main.c 







net/if.c 通用 接口 代码 
net/if loop.c 环 回 设备 驱动 程序 
net/if sl.c SLIP 设 备 驱 动 程序 





hp300/dev/if le.c LANCE 以 太 网 设备 驱动 程序 


图 3-1 本 章 讨论 的 文件 


3.2.1 全 局 变量 
在 本 章 中 介绍 的 全 局 变量 列 于 图 3-2 中 。 
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pdevinit struct pdevinit[] 伪 设 备 如 SLIP 和 环 回 接口 的 初始 化 参数 数组 
ifnet struct ifnet * ifnet 结 构 的 列表 的 表 头 
ifnet addrs struct ifaddr ** 指向 链 路 层 接口 地 址 的 指针 数组 


if indexlim | int 数组 ifnet _addrs 的 大 小 
if index int 上 一 个 配置 接口 的 索引 
ifqmaxlen int 接口 输出 队列 的 最 大 值 
hz int 这 个 系统 的 时 钟 频率 (次 / 秒 ) 


图 3-2 本 章 中 介绍 的 全 局 变量 





3.2.2 SNMP 变量 


Net/3 内 核 收集 了 大 量 的 各 种 联网 统计 。 在 大 多 数 章 节 中 ， 我 们 都 要 总 结 这 些 统 计 并 说 明 
它们 与 定义 在 简单 网 络 管理 协议 信息 库 (SNMP MIB-ID) 中 的 标准 TCP/P 信 息 和 统计 之 间 的 关 
系 。RFC 1213 [McCloghrie and Rose 1991] 说 明了 SNMP MIB-II， 它 组 织 成 如 图 3-3 所 示 的 10 
个 不 同 的 信息 组 。 


System 系统 通用 信息 

Interfaces 网 络 接口 信息 

Address Translation 网 络 地 址 到 硬件 地 址 的 映射 表 ( 不 推荐 使 用 ) 
IP IP 协 议 信 息 

ICMP ICMP 协 议 信 息 

TCP TCP 协 议 信 息 

UDP UDP 协议 信息 

EGP EGP 协 议 信 息 

Transmission 媒体 专用 信息 

SNMP SNMP 协 议 信 息 





图 3-3 MIB-II 中 的 SNMP 组 


Net/3 并 不 包括 SNMP 代 理 。 针 对 Net/3 的 SNMP 代 理 是 作为 进程 来 实现 的 ， 它 根据 SNMP 
的 要 求 通过 2.2 市 搬 述 的 机 制 来 访问 这 些 内 核 统计 。 

Net/3 收 集 大 多 数 MIB-II 变 量 并 且 能 被 SNMP 代 理 直 接 访问 ， 而 其 他 的 变量 则 要 通过 间接 
方式 来 获得 。MIB-II 变 量 分 为 三 类 : (1) 人 简单 变量 ， 例 如 一 个 整数 值 、 一 个 时 间 惟 或 一 个 字 布 
串 ，(2) 人 简单 变量 的 列表 ， 例 如 一 个 单独 的 路 由 项 或 一 个 接口 描述 项 ，(3) 各 种 表 的 列表 ， 例 如 
整个 路 由 表 和 所 有 接口 表 项 的 列表 。 


ISODE 包 中 有 一 个 Net/3 SNMP 代 理 的 例子 ，ISODE 的 信息 见 附 录 BB。 


图 3-4 所 示 的 是 一 个 为 SNMP 接 口 组 维护 的 向 单 变量 。 我 们 在 后 面 的 图 4-7 中 描述 SNMP 接 
Hx. 


SNMP" t& Net/3 变 量 





ifNumber if index + 1 if index 是 系统 中 最 后 一 个 接口 的 索引 值 ， 并 且 起 始 
为 0， 加 1 来 获得 系统 中 接口 个 数 1fNumber 


图 3-4 “在 接口 组 中 的 一 个 催 单 的 SNMP 变 量 
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3.3 ifnet 结 构 


结构 ifnet 中 包含 所 有 接口 的 通用 信息 。 在 系统 初始 化 期 间 ， 分别 为 每 个 网 络 设备 分 配 
一 个 独立 的 1fnet 结 构 。 每 个 fnet 结 构 有 一 个 列表 ， 它 包含 这 
个 设备 的 一 个 或 多 个 协议 地 址 。 图 3-5 说 明了 一 个 接口 和 它 的 地 址 
之 则 的 关系 。 

在 图 3-5 中 的 接口 显示 了 3 个 存放 在 ifaddr 结 构 中 的 协议 地 
址 。 虽 然 有 些 网 络 接口 (如 SLIP) 仅 支 持 一 个 协议 ， 但 有 些 接口 
(如 以 太 网 ) 支持 多 个 协议 并 需要 多 个 地 址 。 例 如 ， 一 个 系统 可 
能 使 用 一 个 以 太 网 接口 同时 用 于 Internet 和 OSI 两 个 协议 。 一 个 类 
型 字段 标识 每 个 以 太 网 帧 的 内 容 ， 并 且 因 为 Internet 和 OSI 协议 使 
用 不 同 的 编 址 方式 ， 以 太 网 接口 必须 有 一 个 Internet 地 址 和 一 个 ifaddr() 
OSI 地 址 。 所 有 地 址 用 一 个 链表 链接 起 来 (图 3-5$ 右 侧 的 箭头 )， 并 i 
且 每 个 结构 包含 一 个 回 指 指针 指向 相关 的 ifnet 结 构 ( 图 3-5 左 侧 图 3-5 每 个 ifnet 结 构 有 一 个 
的 箭头 )， ifaddr 结 构 的 列表 

可 能 一 个 网 络 接口 支持 同一 协议 的 多 个 地 址 。 例 如 ， 在 Net/3 中 可 能 为 一 个 以 太 网 接口 分 
配 两 个 Internet 地 址 。 


这 个 特点 第 一 次 是 出 现在 Net/2 中 。 当 为 一 个 网 络 重 编 地 址 时 ， 一 个 接口 有 两 个 
IP 地 址 是 有 用 的 。 在 过 渡 期 间 ， 接 口 可 以 接收 老 地 址 和 新 地 址 的 分 组 。 


结构 ifnet 比 较 大 ， 我 们 分 五 个 部 分 来 说 明 : 





* 实现 信息 。 
。 硬件 信息 。 
e 接口 统计 。 
* 函数 指针 
« 输出 队列 。 
图 3-6 所 示 的 是 包含 在 结构 ifnet 中 的 实现 信息 。 
| if.h 
80 struct ifnet ( 
81 struct ifnet *if next; /* all struct ifnets are chained */ 
82 struct ifaddr *if addrlist; /* linked list of addresses per if */ 
83 char *if name; /* nüme, 6.g. ‘re? or "lo */ 
84 short If unit; /* sub-unit for lower level driver */ 
85 u short if index; /* numeric abbreviation for this if  */ 
86 short if flags; /* Figure 3.7 */ 
87 short if timer; /* time 'til if watchdog called */ 
88 int if pcount; /* number of promiscuous listeners */ 
89 caddr t if bpf; /* packet filter structure */ fh 
if. 


图 3-6 ifnet£tEJ.: 实现 信息 
80-82 if_next 把 所 有 接口 的 ifnet 结 构 链接 成 一 个 链表 。 冰 数 i£f_attach 在 系统 初始 
化 期 间 构造 这 个 链表 。if adar1ist 指 向 这 个 接口 的 ifaddz 结 构 列 表 ( 图 3-16)。 每 个 
ifaddr 结 构 存 储 一 个 要 用 这 个 接口 通信 的 协议 的 地 址 信息 。 
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1. 通用 接口 信息 | 
83-86 if_name 是 一 个 短 字符 串 ， 用 于 标识 接口 的 类 型 ， 而 if_unit 标 识 多 个 相同 类 型 的 
实例 。 例 如 ， 一 个 系统 有 两 个 SLIP 接 口 ， 每 个 都 有 一 个 if_name， 包 含 两 字 节 的 “s1 ”和 一 
^if unit, if unit 对 第 一 个 接口 为 0(， 对 第 二 个 接口 为 1。 if _ index 在 内 核 中 唯一 地 标 
识 这 个 接口 ， 这 在 sysct1 系 统 调用 ( 见 19.14 节 ) 以 及 路 由 域 中 要 用 到 。 


有 时 一 个 接口 并 不 被 一 个 协议 地 址 唯一 地 标识 。 例 如 ， 几 个 SLIP 连 接 可 以 有 同 
样 的 本 地 IP 地 址 。 在 这 种 情况 下 ，if_inadex 明 确 地 指明 这 个 接口 。 


if_flags 表 明 接 口 的 操作 状态 和 属性 。 一 个 进程 能 检查 所 有 的 标志 ， 但 不 能 改变 图 3-7 
“内 核 专 用 ” 列 中 做 了 记号 的 标志 。 这 些 标志 用 4.4 市 讨论 的 命令 SIOCGIFFLAGS 和 
SIOCSIFFLAGS 来 访问 。 


IFF BROADCAST 接口 用 于 广播 网 

IFF MULTICAST 接口 支持 多 播 

IFF POINTOPOINT 接口 用 于 点 对 点 网 络 

IFF LOOPBACK 接口 用 于 环 回 网 络 

IFF OACTIVE 正在 传输 数据 

IFF RUNNING 资源 已 分 配给 这 个 接口 

IFF SIMPLEX 接口 不 能 接收 它 自 己 发 送 的 数据 


IFF LINKO 见 由 设备 驱动 程序 定义 
IFF LINK1 n 由 设备 驱动 程序 定义 
IFF LINK2 n 由 设备 驱动 程序 定义 


IFF ALLMULTI 接口 正 接收 所 有 多 播 分 组 
IFF DEBUG 这 个 接口 允许 调试 

IFF NOARP 在 这 个 接口 上 不 使 用 ARP 协 议 
IFF NOTRAILERS 避免 使 用 尾部 封装 

IFF PROMISC 接口 接收 所 有 网 络 分 组 

IFF UP 接口 正在 工作 





图 3-7 if flags 值 


IFF BROADCASTÁeIFF POINTOPOINT 标 志 是 互 斤 的 。 

ZIFF CANTCHANGE 是 对 所 有 在 “内 核 专 用 ” 列 中 做 了 记号 的 标志 进行 按 位 “或 ”操作 。 

设备 专用 标志 (IFF_LINKxX) 对 于 一 个 依赖 这 个 设备 的 进程 可 能 是 可 修改 的 ， 也 
可 能 是 不 可 修改 的 。 例 如 ， 图 3-29 显 示 了 这 些 标 志 是 如 何 被 SLIP 驱 动 程序 定义 的 。 


2. 接口 时 钟 
87 if_timer 以 秒 为 单位 记录 时 间 ， 直 到 内 核 为 此 接口 调用 函数 if_watchdog 为 止 。 这 个 
函数 用 于 设备 驱动 程序 定时 收集 接口 统计 ， 或 用 于 复位 运行 不 正确 的 硬件 。 

3. BBDD ALIE 28 
88-89 下 面 两 个 成 员 if_pcount 和 if_bpf 支 持 BSD 分 组 过 滤器 (BPF)。 通 过 BPF， 一 个 进 
程 能 接收 由 此 接口 传输 或 接收 的 分 组 的 备份 。 当 我 们 讨论 设备 驱动 程序 时 ， 还 要 讨论 分 组 是 
如 何 通 过 BPF 的 。BPF 在 第 31 章 讨论 。 

ifnet 结 构 的 下 一 个 部 分 显示 在 图 3-8 中 ， 它 用 来 描述 接口 的 硬件 特性 。 








| if.h 
90 struct if data ( 
91 /* generic interface information */ 
92 u char ifi. type; /* Figure 3.9 */ 
93 u_char ifi. addrlen; /* media address length */ 
94 u char ifi hdrlen; /* media header length */ 
95 u long ifi mtu; /* maximum transmission unit */ 
96 u long ifi metric; /* routing metric (external only) */ 
97 u long ifi baudrate; /* linespeed */ 





138 #define if mtu lf data.ifái mta 

139 #define if type if data.ifi type 

140 #define if addrlen if data.ifi addrlen 
141 $define if hdrlen if data.ifi hdrlen 
142 #define if metric if data.ifi metric 
143 $define if baudrate if data.ifi baudrate 





if.h 


图 3-8 ifnet 结 构 : 接口 特性 


Net/3 和 本 书 使 用 第 138 一 143 行 的 #define 语 和 句 定义 的 短语 来 表示 ifnet 的 
成 员 。 
4. 接口 特性 
90-92 if_type 指 明 接 口 支 持 的 硬件 地 址 类 型 。 图 3-9 列 出 了 net/if_types.h 中 几 个 公 
共 的 if_type 值 。 


TFT OTHER 未 指明 
TFT ETHER 以 太 网 
IFT ISO88023 IEEE 802.3 以 太 网 (CSMA/CD) 


TFT ISO88025 IEEE 802.54 f Xf 
LIFT FDDI 光纤 分 布 式 数据 接口 
TFT LOOP 环 回 接口 

TFT SLIP FR (T2X IP 





图 3-9 if type: 数据 链 路 类 型 


93-94 if _addqrlen 是 数据 链 路 地 址 的 长 度 ， 而 if_hdarlen 是 由 硬件 附加 给 任何 分 组 的 首 
部 的 长 度 。 例 如 ， 以 太 网 有 一 个 长 度 为 6 字 节 的 地 址 和 一 个 长 度 为 14 字 市 的 首部 (图 4-8)。 
95 if mtu 是 接口 传输 单元 的 最 大 值 ， 即 接口 在 一 次 输出 操作 中 能 传输 的 最 大 数据 单元 的 字 
节 数 。 这 是 控制 网 络 和 传输 协议 创建 分 组 大 小 的 重要 参数 。 对 于 以 太 网 来 说 ， 这 个 值 是 1500。 
96-97 if metzric 通 常 是 0， 其 他 更 大 的 值 不 利于 路 由 通过 此 接口 。 if baudrate 指 定 接 
口 的 传输 速率 ， 只 有 SLIP 接 口才 设置 它 。 

接口 统计 由 图 3-10 中 显示 的 下 一 组 ifnet 接 口 成 员 来 收集 。 

5. 接口 统计 
98-111 这 些 统计 大 多 数 是 不 言 自 明 的 。 当 分 组 传输 被 共享 媒体 上 其 他 传输 中 断 时 ， 
if_collisions 加 1。if_noproto 统 计 由 于 协议 不 被 系统 或 接口 支持 而 不 能 处 理 的 分 组 数 
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(例如 : EHP XR SEE — ANOSH). 24— ^ 3EIPZHH 135 — /* SLIPHE HL 8958 HA 


t, if noprotoJIl, 


98 /* volatile statistics */ 


if.h 





99 u long ifi ipackets; /* 4$packets received on interface */ 
100 u long ifi ierrors; /* #input errors on interface */ 

101 u long ifi opackets; /* 4&packets sent on interface */ 

102 u long ifi oerrors; /* 4$output errors on interface */ 
103 u long ifi collisions; /* $collisions on csma interfaces */ 
104 u long ifi. ibytes; /* d$bytes received */ 
105 u long ifi obytes; /* #bytes sent */ 
106 u long ifi. imcasts; /* 4packets received via multicast */ 
107 u long ifi. omcasts; /* $packets sent via multicast */ 
108 u long ifi. iqdrops; /* $packets dropped on input, for this 
109 interface */ 
110 u long ifi noproto; /* $packets destined for unsupported 
114 protocol */ 
112 struct timeval ifi, lastchange;  /* last updated */ 
113 ) if data; 

Ma 
/* other ifnet members 

144 #define if ipackets if data.ifi ipackets 

145 $define if ierrors if data.ifi ierrors 

146 £&define if opackets if data.ifi opackets 

147 $define if oerrors if data.ifi oerrors 

148 &define if. collisions if data.ifi collisions 

149 £define if ibytes if data.ifi ibytes 

150 £define if obytes if data.ifi obytes 

151 £define if imcasts if data.ifi imcasts 

152 £&define if omcasts if data.ifi omcasts 

153 £$&define if iqdrops if data.ifi. iqdrops 

154 £&define if noproto if data.ifi noproto 

155 4define if lastchange if data.ifi lastchange 


if.h 


图 3-10 结构 ifnet : 接口 统计 


这 些 统计 在 Net/1 中 不 属于 ifnet 结 构 ， 加 入 它们 的 目的 是 支持 接口 的 标准 


SNMP MIB-II € € , 


if iqdrops 仅 被 SLIP 设 备 驱 动 程序 访问 。 当 IF_DROP 被 调用 时 ，SLIP 和 其 他 
网 络 驱 动 程序 把 if snd.ifq drops (图 3-13) 加 1。 在 SNMP 统 计 加 入 前 ， 
ifq drops 就 已 经 存在 于 BSD 软 件 中 了 。ISODE SNMP 代 理 忽 略 if_iqdqrops 而 使 


Mif snd.ifq drops, 
6. DICENTE TR] X 


112-113 if lastchange 记 录 任 何 统计 改变 的 最 近 时 间 。 
Net/3 和 本 书 又 一 次 使 用 第 144 一 155 行 的 #define 语 名 定义 的 短 名 来 指明 ifnet 


结构 ifnet 的 下 一 个 部 分 显示 在 图 3-11 中 ， 它 包含 指向 标准 接口 层 函 数 的 指针 ， 它 们 把 


设备 专用 的 细节 从 网 络 层 分 离 出 来 每 个 网 络 接口 实现 这 些 适 用 于 特定 设备 的 图 数 。 
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114 /* procedure handles */ E 
115 int (*if init) /* init routine */ 
116 (int); 
117 int (*if output) /* output routine (enqueue) */ 
118 (struct ifnet *, struct mbuf *, struct sockaddr *, 
119 struct rtentry *); 
120 int (*if start) /* initiate output routine */ 
121 (struct ifnet *); 
124 int (*if, done) /* output complete routine */ 
123 (struct iinet *); /* (XXX not used; fake prototype) */ 
124 int (*if.ioctl) /* ioctl routine */ 
125 (struct ifnet *, int, caddr t); 
126 int (*if. reset) 
i27 (int); /* new autoconfig will permit removal */ 
128 int (*if watchdog) /* timer routine */ 
129 (int); 
if.h 


图 3-11 结构 ifnet ; 接口 过 程 


7. 接口 函数 
114-129 在 系统 初始 化 时 ， 每 个 设备 驱动 程序 初始 化 它 自 己 的 ifnet 结 构 ， 包 括 7 个 国 数 
指针 。 图 3-12 说 明了 这 些 通 用 函数 。 
我 们 在 Net/3 中 常会 看 到 注释 /* XXX */。 它 提醒 读者 这 段 代码 是 易 混 消 的 ， 包 
括 不 明确 的 副作用 ， 或 者 一 个 更 难 问题 的 快速 解决 方案 。 在 这 里 ， 它 指示 if_done 
不 在 Net/3 中 使 用 。 


if init 初始 化 接口 
if output 对 要 传输 的 输出 分 组 进行 排队 
if start 启动 分 组 的 传输 


if done 传输 完成 后 的 清除 (未 用 ) 
if ioctl 处 理 I/O 控 制 命令 

if reset 复位 接口 设备 

if watchdog 周期 性 接口 例 程 





图 3-12 结构 ifnet : 函数 指针 


在 第 4 章 我 们 要 查看 以 太 网 、SLIP 和 环 回 接口 的 设备 专用 函数 ， 内 核 通 过 ifnet 结 构 中 的 
这 些 指针 直接 调用 它们 。 例 如 ， 如 果 ifp 指 向 一 个 i1fnet 结 构 ， 

(*ifp-»if start) (ifp) 
则 调用 这 个 接口 的 设备 驱动 程序 的 jf_start 函 数 。 

结构 ifnet 中 剩 下 的 最 后 一 个 成 员 是 接口 的 输出 队列 ， 如 图 3-13 所 示 。 
130-137 if_snd 是 接口 输出 分 组 队列 ， 每 个 接口 有 它 自己 的 ifnet 结 构 ， 即 它 目 己 的 和 输 
出 队列 。ifq_head 指 向 队列 的 第 一 个 分 组 (下 一 个 要 输出 的 分 组 )，ifq_tail 指 向 队列 最 后 
一 个 分 组 ，if_len 是 当前 队列 中 分 组 的 数目 ， 而 ifq_maxlen 是 队列 中 允许 的 缓存 最 大 个 
数 。 除 非 驱 动 程序 修改 它 ， 这 个 最 大 值 被 设置 为 50( 来 源 于 全 局 整数 1fqmaxlen， 它 在 编译 
期 间 根据 IFQ_MAXLEN 初 始 化 而 来 )。 队 列 作为 一 个 mbuf 链 的 链表 来 实现 。ifq_drops 统 计 
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因为 队列 满 而 丢弃 的 分 组 数 。 图 3-14 列 出 了 那些 访问 队列 的 宏和 函数 。 


if.h 
139 struct ifqueue { i 
131 struct mbuf *ifq head; 
134 struct mbuf *ifq tail; 
133 int ifq len; /* current length of queue */ 
134 int ifq maxlen; /* maximum length of queue */ 
135 int ifq drops; /* packets dropped because of full queue */ 
136 } if snd; /* output queue */ 
137 y; 

if.h 


图 3-13 结构 ifnet:， 输出 队列 


int IF QFULL(struct ifqueue *ifq); 

IF DROP IF_DROP 仅 将 与 网 关联 的 ifq_drops 加 1。 这 个 名 字 会 引起 误导 ， 调 用 者 丢弃 这 个 分 组 
void IF DROP(struct ifqueue *ifq); 

IF ENQUEUE 把 分 组 m 追 加 到 ifg 队 列 的 后 面 。 分 组 通过 mbuf 首 部 中 的 m_nextpkt 链 接 在 一 起 
void IF ENQUEUE(struct ifqueue *ifg, struct mbuf *m); 


IF DEQUEUE Mif 9 P SGESR — 22H. mdRISISGERJ 2B, EA P Iz. Wim zs TÉ 
void IF DEQUEUE(struct ifqueue *ifg, struct mbuf *m); 


IF PREPEND 把 分 组 m 插 到 ifg 队 列 的 前 面 
void IF PREPEND(struct ifqueue *ifg, struct mbuf *m); 


if gflush 丢弃 队列 jf 中 的 所 有 分 组 ， 例 如 ， 当 一 个 接口 被 关闭 了 
void if qflush(struct ifqueue *ifq); 





3-14 fiqueue 例 程 


前 5 个 例 程 是 定义 在 net /if.h 中 的 宏 ， 最 后 一 个 例 程 1.f_qflush 是 定义 在 net/if.c 
中 的 函数 。 这 些 宏 经 常 出 现在 下 面 这 样 的 程序 语句 中 : 


S = splimp(); 
if (IE.QFULL(inq)) ( 
IF DROP(inq); /* queue is full, drop new packet */ 
m freem(m); 
) else 
IF ENQUEUE(inq, m); /* there is room, add to end of queue */ 
splxí(s); 


这 段 代 码 试图 把 一 个 分 组 加 到 队列 中 。 如 果 队 列 满 ，IF_DROP 把 ifq_drops 加 1， 并 且 分 组 
被 丢弃 。 可 靠 协 议 如 TCP 会 重 传 丢弃 的 分 组 。 使 用 不 可 靠 协 议 ( 如 UDP) 的 应 用 程序 必须 自己 检 
测 和 处 理 重 传 。 
访问 队列 的 语句 被 splimp 和 splx 括 起 来 ， 阻止 网 络 中 断 ， 并 且 防 止 在 不 确定 状态 时 网 
络 中 断 服 务 例 程 访问 此 队列 。 
在 splx 之 前 调用 m freem， 是 因为 这 段 mbuf 代 码 有 一 个 临界 区 运行 在 splimp 
级 别 上 。 若 在 m freem 前 调用 splx， 在 m freem 中 进入 另 一 个 临界 区 (2.5 节 ) 是 浪 
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3.4 ifaddr 结 构 


我 们 要 看 的 下 一 个 结构 是 接口 地 址 结构 ifadaqr ， 它 显示 在 图 3-15 中 。 每 个 接口 维护 一 个 
ifaddr 结 构 的 链表 ， 因 为 一 些 数据 链 路 (如 以 太 网 ) 支持 多 个 协议 。 用 一 个 独立 的 jfadar 
结构 描述 每 个 分 配给 接口 的 地 址 ， 通 常 每 个 协议 一 个 地 址 。 支 持 多 地 址 的 男 一 个 原因 是 很 多 
协议 (包括 TCP/IP) 支持 为 单个 物理 接口 指派 多 个 地 址 。 虽 然 NeUV3 支 持 这 个 特性 ， 但 很 多 
TCP/IP 实 现 并 不 支持 。 





if.h 
217 struct ifaddr ( 
218 struct  ifaddr *ifa next; /* next address for interface */ 
219 struct  ifnet *ifa ifp; /* back-pointer to interface */ 
220 struct  sockaddr *ifa addr; /* address of interface */ 
224. struct sockaddr *ifa dstaddr;  /* other end of p-to-p link */ 
222 #define ifa broadaddr ifa dstaddr /* broadcast address interface */ 
223 struct  sockaddr *ifa netmask;  /* used to determine subnet */ 
224 void (*ifa rtrequest)(); /* check or clean routes */ 
225 u short ifa flags; /* mostly rt, flags for cloning */ 
226 short ifa refcnt; /* references to this structure */ 
227 int ifa metric; /* cost for this interface */ 
228 ji 
if.h 
[3-15 结构 ijfaddr 
217-219 结构 jfaddr 通 过 ifa _next 把 分 配给 ifnet() 
: : a't hait dep | | if next peee > 更 多 其 他 接口 
一 个 接口 的 所 有 地 址 链接 起 来 ， 它 还 包括 一 个 指 回 


接口 的 jfnet 结 构 的 指针 ifa_ifp。 图 3-16 显 示 了 
结构 ifnet 与 faddr 之 间 的 关系 。 
220 ifa_addr 指 向 接口 的 一 个 协议 地 址 ， 而 
ifa_netmask 指 向 一 个 位 掩 码 ， 它 用 于 选择 
ifa_addr 中 的 网 络 部 分 。 地 址 中 表示 网 络 部 分 的 
比特 在 掩 码 中 被 设置 为 1， 地 址 中 表示 主机 的 部 分 
被 设置 为 0。 两 个 地 址 都 存放 在 sockaddr 结 构 中 
(3.5 节 )。 图 3-38 显 示 了 一 个 地 址 及 其 掩 码 结构 。 对 
于 IP 地 址 ， 掩 码 选 择 IP 地 址 中 的 网 络 和 子 网 部 分 。 
221-223 ifa dstaddr(mU © HJ 59 £ 
ifa_broadaddr) 指 同一 个 点 对 点 链 路 上 的 另 一 端 
的 接口 协议 地 址 或 指向 一 个 广播 网 中 分 配给 接口 的 
广播 地 址 (如 以 太 网 )。 接 口 的 ifnet 结 构 中 互 斥 的 
两 个 标志 IFF BROADCAST 和 IFF POINTOPOINT 
(图 3-7) 指 示 接 口 的 类 型 。 
224-228 ifa rtrequest, ifa flags 和 ifa metric 支 持 接口 的 路 由 查找 。 
ifa_refcnt 统 计 对 结构 ifadqdzr 的 引用 。 安 IFRAFREE 仅 在 引用 计数 降 到 0 时 才 释 放 这 个 
结构 ， 例 如 ， 当 地 址 被 命令 SIOCDIFADDR ioct1 删 除 时 。 结 构 ifaddqr 使 用 引用 计数 是 因 
为 接口 和 路 由 数据 结构 共享 这 些 结构 。 


图 3-16 结构 ifnet 和 ifaddr 
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如 果 有 其 他 对 ifaddr 的 引用 ，IFAFREE 将 计数 器 加 1 并 返回 。 这 是 一 个 通用 的 
方法 ， 除 了 最 后 一 个 引用 外 ， 它 避免 了 每 次 都 调用 一 个 函数 的 开销 。 如 果 是 最 后 一 
个 引用 ，IFRFREE 调 用 函数 ifafzree 来 释放 这 个 结构 。 


3.5 sockaddr ý 


一 个 接口 的 编 址 信息 不 仅仅 包括 一 个 主机 地 址 。Net/3 在 通用 的 sockaddr 结 构 中 维护 主 
机 地 址 、 广 播 地 址 和 网 络 掩 码 。 通 过 使 用 一 个 通用 的 结构 ， 将 硬件 与 协议 专用 的 地 址 细 市 相 
对 于 接口 层 隐 藏 起 来 。 

图 3-17 显 示 的 是 这 个 结构 的 当前 定义 及 早期 BSD 版 的 定义 一 一 结构 osockaddr。 图 3-18 
说 明了 这 些 结构 的 组 织 。 


socket.h 
120 struct sockaddr { 
L21 u_char sa len; /* total length */ 
122 u_char sa family; /* address family (Figure 3.19) */ 
123 char sa data[14]; /* actually longer; address value */ 
124 ); 
271 struct osockaddr ( 
272 u short sa family; /* address family (Figure 3.19) */ 
273 char sa data[14]; /* up to 14 bytes of direct address */ 
274 ); 
socket.h 


图 3-17 结构 sockaddr 和 osockaddr 


family 


四 
1-3 e 
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14 字 市 





sockaddr {} 





图 3-18 结构 sockaddr 和 osockaddr (% i% T BíZxsa ) 


在 很 多 图 中 ， 我们 省 略 了 成 员 名 中 的 公共 前 级 。 在 这 里 ， 我 们 省 略 了 sa_ Bid. 

1. sockaddr 结 构 
120-124 ”每 个 协议 有 它 自己 的 地 址 格式 。Net/3 在 一 个 sockaddr 结 构 中 处 理 通 用 的 地 址 。 
sa_len 指 示 地 址 的 长 度 (OSI 和 Unix 域 协议 有 不 同 的 地 址 长 度 ), sa_family 指 示 地 址 的 类 型 。 
图 3-19 列 出 了 地 址 族 (address family) 和 常量 ， 其 中 包括 我 们 过 到 的 。 

当 指 明 为 AF _UNSPEC 时 ，sockaddr 的 内 容 要 根据 情况 而 定 。 大 多 数 情 况 下 ， 

它 包含 一 个 以 太 网 硬件 地 址 。 

成 员 sa_len 和 sa_family 人 允许 协议 无 关 代码 操作 来 自 多 个 协议 的 变 长 的 sockaddr 结 
构 。 剩 下 的 成 员 sa_data 包 含 一 个 协议 相关 格式 的 地 址 。sa_qdata 定 义 为 一 个 14 字 市 的 数组 ， 
但 当 sockaddr 结 构 履 盖 更 大 的 内 存 空间 时 ，sa_data 可 能 会 扩展 到 253 字 证 。sa_len 仅 有 


人 =- 二 人 
必须 不 超过 256 字 有 。 : -一 





AF INET Internet 
这 是 C 语 言 的 一 种 通用 技术 ， 它 允许 程序 员 把 AF ISO,AF OSI OSI 
一 个 结构 中 的 最 后 一 个 成 员 看 成 是 可 变 长 的 。 
AF ROUTE 路 由 表 
每 个 协议 定义 一 个 专用 的 sockaddr 结 构 ， 该 结构 AF_LINK 数据 链 路 
复制 成 员 sa_len 和 sa_family， 但 按 相 应 协议 的 要 [一 - ( 见 正文 ) 
求 来 定义 成 员 sa_data。 存 储 在 sa_dqata 中 的 地 址 是 图 3-19 sa_family 常 量 


一 个 传输 地 址 ， 它 包含 足够 的 信息 来 标识 同一 主机 上 的 多 个 通信 端点 。 在 第 6 章 我 们 要 查看 
Internet 地 址 结构 sockaddr in， 它 包含 了 一 个 IP 地 址 和 一 个 端口 号 。 

2. osockaddr 结 构 
271-274 结构 osockaddr 是 4.3BSD Reno 版 本 以 前 的 sockaddr 定 义 。 因 为 在 这 个 定义 中 
一 个 地 址 的 长 度 不 是 显 式 地 可 用 ， 所 以 它 不 能 用 来 写 能 够 处 理 可 变 长 地 址 的 协议 无 关 代 码 。 
OSI 协 议 使 用 可 变 长 地 址 ， 为 了 包括 OSI 协 议 ， 在 Net/3 的 sockaddr 定 义 中 才 有 了 我 们 所 见 的 
改变 。 结 构 o0sockaddr 是 为 了 支持 对 以 前 编译 的 程序 的 二 进 制 兼 容 。 


在 本 书 中 我 们 省 略 了 二 进 制 兼容 代码 。 
3.6 ifnet 与 ifaddr 的 专用 化 


结构 ifnet 和 ifaddqr 包 含 适用 于 所 有 网 络 接口 和 协议 地 址 的 通用 信息 。 为 了 容纳 其 他 设 
备 和 协议 专用 信息 ， 每 个 驱动 程序 都 定义 了 且 每 个 协议 都 分 配 了 一 个 专用 化 版 本 的 ifnet 和 
ifaddr 结 构 。 这些 专用 化 的 结构 总 是 包含 一 个 fnet 或 ifaddr 结 构 作为 它们 的 第 一 个 成 员 ， 
这 样 无 须 考 虑 其 他 专用 信息 就 能 访问 这 些 公共 信息 。 

多 数 设备 驱动 程序 通过 分 配 一 个 专用 化 的 ifnet 结 构 的 数组 来 处 理 同 一 类 型 的 多 个 接口 ， 
但 有 些 设备 (例如 环 回 设备 ) 仅 处 理 一 个 接口 。 图 3-20 所 示 的 是 我 们 的 例子 接口 的 专用 化 ifnet 
结构 的 组 织 。 


le softc[0]: 
ifnet() 
} arpcom{} 
以 太 网 le softc() 
sl softc[0]: 
SLIP jio sl softc() 
loif: 


图 3-20 设备 相关 的 结构 中 的 ifnet 结 构 的 组 织 
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注意 ， 每 个 设备 的 结构 以 一 个 ifnet 开 始 ， 接 
下 来 全 是 设备 相关 的 数据 。 环 回 接口 只 声明 了 一 个 
ifnet 结 构 ， 因 为 它 不 要 求 任何 设备 相关 的 数据 。 
在 图 3-20 中 ， 我 们 显示 的 以 太 网 和 SLIP 驱 动 程序 的 
结构 softc 带 有 数组 下 标 0， 因 为 两 个 设备 都 支持 
多 个 接口 。 任 何 给 定 类 型 的 接口 的 最 大 个 数 由 内 核 
建立 时 的 配置 参数 来 限制 。 

结构 arpcom( 图 3-26) 对 于 所 有 以 太 网 设备 是 通 
用 的 ， 并 且 包 含 地 址 解析 协议 (ARP) 和 以 太 网 多 播 
信息 。 结 构 le_softc( 图 3-25) 包 含 专用 于 LANCE 
以 太 网 设备 驱动 程序 的 其 他 信息 。 Internet 地 址 

每 个 协议 把 每 个 接口 的 地 址 信息 存储 在 一 个 专 
用 化 的 ifaddqr 结 构 的 列表 中 。 以 太 网 协议 使 用 一 
个 in_ifaddr 结 构 (6.5 节 )， 而 OSI 协议 使 用 一 个 


iso_ifaddqr 结 构 。 另 外 ， 当 接口 被 初始 化 时 ， 内 osI 地 址 
核 为 每 个 接口 分 配 了 一 个 链 路 层 地 址 ， 它 在 内 核 中 


标识 这 个 接口 。 

内 核 通 过 分 配 一 个 ifaddr 结 构 和 两 个 图 3-21 一 个 包含 链 路 层 地址 、Internet 地 址 
sockaddr_d1l 结 构 ( 一 个 是 链 路 层 地 址 本 身 ， 一 个 和 OS 地址 的 接口 地 址 列表 
是 地 址 掩 码 ) 来 构造 一 个 链 路 层 地 址 。 结 构 sockaddr_qd1 可 被 0SI、ARP 和 路 由 算法 访问 。 
3-21 显 示 的 是 一 个 带 有 和 链 路 层 地 址 、Internet 地 址 和 OSI 地 址 的 以 太 网 接口 。3.11 市 说 明了 链 路 
层 地 址 (ifadqdr 和 两 个 sockaddr_1d 结 构 ) 的 构造 和 初始 化 。 


3.7 网 络 初始 化 概述 


所 有 我 们 说 明 的 结构 是 在 内 核 初 始 化 时 分 配 和 互相 链接 起 来 的 。 在 本 证 我 们 大 致 概述 一 
下 初始 化 的 步 又。 在 后 面 的 章节 ， 我 们 说 明 特定 设备 的 初始 化 步骤 和 特定 协议 的 初始 化 步骤 。 
有 些 设备 ， 例 如 SLIP 和 环 回 接口 ， 完 全 用 软件 来 实现 。 这 些 伪 设备 用 存储 在 全 局 
pdevinit 数 组 中 的 一 个 pdaevinit 结 构 来 表示 (图 3-22)。 在 内 核 配 置 期 间 构 造 这 个 数组 。 
例如 : 


struct pdevinit pdevinit[] = ( 
{ slattach,;- 1 ); 
( loopattach, 1 ), 


链 路 层 地 址 









nd 


( 9, 0 jJ 
li 
Xue device.h 
120 struct pdevinit ( 
121 void (*pdev attach) (int); /* attach function */ 
122 int pdev. count; /* number of devices */ 
I23 j : 
device.h 


图 3-22 结构 pdevinit 


120-123 对 于 SLIP 和 环 回 接 口 ， 在 结构 pdevinit 中 pdev attach 分 别 被 设置 为 
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slattach 和 loopattach。 当 调用 这 个 attach 函 数 时 ，pdev _count 作 为 传递 的 唯一 参 
数 ， 它 指定 创建 的 设备 个 数 。 只 有 一 个 环 回 设备 被 创建 ， 但 如 果 管 理 员 适 当 配 置 SLIP 项 可 能 
有 多 个 SLIP 设 备 被 创建 。 
网 络 初始 化 函数 从 main 开 始 显示 在 图 3-23 中 。 
init_main.c 
70 main (framep) 
71 void *framep; 












72 t 
96 /* locate and initialize devices */ 
> $ Sida ce a A s 和 区 rto c ud Ew 
172 /* Attach pseudo-devices. (e.g., SLIP and loopback interfaces) */ 
173 for (pdev = pdevinit; pdev-»pdev attach !- NULL; pdev++) 
174 (*pdev-»pdev attach) (pdev-»pdev count); 
175 fw 
176 * Initialize protocols. Block reception of incoming packets 
177 * until everything is ready. 
178 SA 
179 s = splimp(); 
180 ifipit[(); /* initialize network interfaces */ 
181 domaininit(); /* initialize protocol domains */ 
182 splx (s); 
x Ue 
231 /* The scheduler is an infinite loop. */ 
232 scheduler(); 
233 /* NOTREACHED */ 
234 ) 


init. main.c 


图 3-23 main 函数 : 网 络 初 始 化 


70-96 cpu_startup 查 找 并 初始 化 所 有 连接 到 系统 的 硬件 设备 ， 包 括 任何 网 络 接 口 。 
97-174 在 内 核 初始 化 硬件 设备 后 ， 它 调用 包含 在 pdevinit 数 组 中 的 每 个 pdev_attach 
图 数 。 
175-234 ifinit 和 domaininit 完 成 网 络 接 口 和 协议 的 初始 化 ， 并 且 scheduler 开 始 内 
核 进程 调度 。 ifinit 和 daomaininit 在 第 7 章 讨 论 。 

在 下 面 几 节 中 ， 我 们 说 明 以 太 网 、SLIP 和 环 回 接口 的 初始 化 。 


3.8 以 太 网 初始 化 

作为 cpu_startup 的 一 部 分 ， 内 核查 找 任何 连接 的 网 络 设 备 。 这 个 进程 的 细 市 超出 了 本 
书 的 范围 。 一 旦 一 个 设备 被 识别 ， 一 个 设备 专用 的 初始 化 函数 就 被 调用 。 图 3-24 显 示 的 是 我 
们 的 3 个 例子 接口 的 初始 化 函数 。 
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每 个 设备 驱动 程序 为 一 个 网 络 接口 初始 化 一 个 专用 
化 的 ifnet 结 构 ， 并 调用 if_attach 把 这 个 结构 插入 
接口 链表 中 。 显 示 在 图 3-25 中 的 结构 le_softc 是 我 们 SLIP slattach 
的 例子 以 太 网 驱动 程序 的 专用 化 ifnet 结 构 ( 图 3-20)。 外国 | 

1. le_softc 结 构 图 3-24 ”网 络 接 口 初始 化 函数 
69-95 在 if le.c 中 声明 了 一 个 le_softc 结 构 ( 有 
NLE 成 员 ) 的 数组 。 每 个 结构 的 第 一 个 成 员 是 sc_ac，arpcom 结 构 对 于 所 有 以 太 网 接口 都 古 
通用 的 ， 接 下 来 是 设备 专用 成 员 。 宏 sc_if 和 sc_addr 简 化 了 对 结构 ifnet 及 存储 在 结构 
arpcom(sc_ac) 中 的 以 太 网 地 址 的 访问 ， 如 图 3-26 所 示 。 


LANCE 以 太 网 leattach 





if le.c 
69 struct le softc ( 
70 struct arpcom sc. ac; /* common Ethernet structures */ 
71 #define sc if sc. ac.ac.if /* network-visible interface */ 


72 $define sc addr sc ac.ac, enaddr /* hardware Ethernet address */ 





95 ) le softc[NLE]; 


if le.c 
图 3-25 结构 le_softc 
if_ether.h 
95 struct arpcom { 
96 struct ifnet ac if; /* network-visible interface */ 
97 u_char ac, enaddr[6]; /* ethernet hardware address */ 
98 struct in_addr ac ipaddr; /* copy of ip address - XXX  */ 
99 struct ether multi *ac multiaddrs; /* list of ether multicast addrs */ 
100 int ac multicnt; /* length of ac multiaddrs list */ 
101 Fo 
if ether.h 


图 3-26 结构 arpcom 


2. arpcom 结 构 
95-101 结构 arpcom 的 第 一 个 成 员 ac if 是 一 个 ifnet 结 构 ， 如 图 3-20 所 示 。ac_enaddr 
是 以 太 网 硬件 地 址 ， 它 是 在 cpu_startup 期 间 内 核 检 测 设备 时 由 LANCE 设 备 驱动 程序 从 硬 
件 上 复制 的 。 对 于 我 们 的 例子 驱动 程序 ， 这 发 生 在 函数 leattach 中 (图 3-27)。ac_ipaddr 
是 上 一 个 分 配给 此 设备 的 IP 地 址 。 我 们 在 6.6 节 讨论 地 址 的 分 配 ， 可 以 看 到 一 个 接口 可 以 有 多 
个 IP 地 址 。 也 可 参见 习题 6.3。ac multiaddrs 是 一 个 用 结构 ether_multi 表 示 的 以 太 网 
多 播 地 址 的 列表 。ac_multicnt 统 计 这 个 列表 的 项 数 。 多 播 列表 在 第 12 章 讨论 。 

图 3-27 所 示 的 是 LANCEL 以 太 网 驱动 程序 的 初始 化 代码 。 
106-115 内 核 在 系统 中 每 发 现 一 个 LANCE 卡 都 调用 一 次 leattach。 


只 有 一 个 指向 hp _ device 结 构 的 参数 ， 它 包含 了 HP 专用 信息 ， 因 为 它 是 专 为 
HP 工作 站 编写 的 驱动 程序 。 
le 指向 此 卡 的 专用 化 ifnet 结 构 ( 图 3-20)，ifp 指 向 这 个 结构 的 第 一 个 成 员 sc_if 
个 通用 的 ijfnet 结 构 。 图 3-27 并 不 包括 设备 专用 初始 化 代码 ， 它 在 本 书 中 不 予 讨 论 。 





— 
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if le.c 


106 leattach (hd) 
107 struct hp device *hd; 








108 ( 
109 struct leregO *ler0; 
110 struct lereg2 *ler2; 
LEL struct lereg2 *lemem = 0; 
112 struct le softc *le - &le softc[hd-»hp unit]; 
1i3 struct ifnet *ifp - &le-»sc if; 
114 char *eops 
115 int 13 
126 [* 
127 * Read the ethernet address off the board, one nibble at a time. 
128 */ 
129 cp = (char *) (lestd[3] + (int) hd-»hp addr); 
130 for (12 0; 1 < sizeof(le-»sc addr); i++) ( 
131 le-»sc, addr[i] = (*««cp & OXF) << 4; 
132 Cp++; 
133 le-»sc addr[i] |= *««cp & OxF; 
134 Cp--*; 
135 ) 
136 printf("le$d: hardware address $sMn", hd-»hp unit, 
L31 ether sprintf(le-»sc  addr)); 
150 ifp-»if unit = hd-»hp unit; 
151 ifp-»if name = "le"; 
152 ifp-»if mtu = ETHERMTU; 
153 lifp-»i£ init = leinit; 
154 ifp-»if reset = lereset; 
155 lfp-»if ioctl = leioctl; 
156 ifp-»if output = ether output; 
157 ifp-»if start = lestart; 
158 ifp-»if flags = IFF BROADCAST | IFF SIMPLEX | IFF MULTICAST; 
159 bpfattach(&ifp-»if bpf, ifp, DLT EN10MB, sizeof(struct ether. header)); 
160 if attach(ifp); 
161 return (1); 
a if le.c 
图 3-27 国 数 leattach 
3. 从 设备 复制 硬件 地 址 


126-137 “对 于 LANCE 设 备 ， 由 厂商 指派 的 以 太 网 地 址 在 这 个 循环 中 以 每 次 半 个 字 贡 (4 位 ) 
从 设备 复制 到 sc addr( 即 sc _ac.ac _enaddr， 见 图 3-26)。 
lestd 是 一 个 设备 专用 的 位 移 表 ， 用 于 定位 hp_addr 的 相关 信息 ，hp_addr 指 
向 LANCE 专 用 信息 。 
通过 printf 语 句 将 完整 的 地 址 输出 到 控制 台 ， 用 来 指示 此 设备 存在 并 且 可 操作 。 


4. 初始 化 Lfnet 结 构 
150-157 leattach 从 hp device 结 构 把 设备 单元 号 复制 到 if_unit 来 标识 同类 型 的 多 
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个 接口 。 这 个 设备 的 jf name 是 “le”; if mtu 为 1300 字 节 (ETHERMTU)， 以 太 网 的 最 大 
传输 单元 ; if init, if reset, if ioctl, if output 和 it _start 都 指向 控制 网 络 
接口 的 通用 函数 的 设备 专用 实现 。4.1 市 说 明 这 些 函 数 。 

158 所 有 的 以 太 网 设备 都 支持 IFF_BROADCAST。LANCE 设 备 不 接收 它 自己 发 送 的 数据 ， 
因此 被 设置 为 IFF_SIMPLEX。 支 持 多 播 的 设备 和 硬件 还 要 设置 IFF_MULTICAST。 
159-162 bpfattach 有 登记 带 BPF 的 接口 ， 在 图 31-8 中 说 明 。 函 数 ij£f _ attach 把 初始 化 了 
的 1fnet 结 构 插 入 接口 的 链表 中 (3.11 市 )。 


3.9 ” SLIP 初始 化 


依赖 标准 异步 串 行 设备 的 SLIP 接 口 在 调用 cpu _startup 时 初始 化 。 当 main 直 接 通 过 
SLIP 的 pdevinit 结 构 中 的 指针 pdev attach 调 用 slattach 上 时 ，SLIP 伪 设备 被 初始 化 。 
每 个 SLIP 接 口 由 图 3-28 中 的 一 个 sl_softc 结 构 来 摘 述 。 


if_slvar.h 
43 struct sl softc ( 
44 struct ifnet sc if; /* network-visible interface */ 
45 struct ifqueue sc fastq; /* interactive output queue */ 
46 struct tty *sc ttyp; /* pointer to tty structure */ 
47 u char *sc mp; /* pointer to next available buf char */ 
48 u char *sc ep; /* pointer to last available buf char */ 
49 u char *sc buf; /* input buffer */ 
50 u int sc flags; /* Figure 3.29 */ 
51 u int Sc escape; /* =1 if last char input was FRAME ESCAPE */ 
52 struct slcompress sc comp;  /* tcp compression data */ 
53 caddr t sc bpf; /* BPF data */ 
54 ); 
if slvar.h 


图 3-28 结构 sl_softc 


43-54 与 所 有 接口 结构 一 样 ，s1_softc 有 一 个 ifnet 结 构 并 且 后 面 跟着 设备 专用 信息 。 

除了 在 ifnet 结 构 中 的 输出 队列 外 ， 一 个 SLIP 设 备 还 维护 男 一 个 队列 sc_fastq， 它 用 
于 要 求 低 时 延 服务 的 分 组 一 一 一 般 由 交互 应 用 产生 。 

sc_ttyp 指 问 关联 的 终端 设备 。 指 针 sc_buf 和 sc_ep 分 别 指 疝 一 个 接收 SLIP 分 组 的 缓 
存 的 第 一 个 字 节 和 最 后 一 个 字 节 。sc_mp 指 向 下 一 个 接收 字 节 的 地 址 ， 并 在 另 一 个 字 菠 到达 
时 向 前 移动 。 

SLIP 定 义 的 4 个 标志 显示 在 图 3-29 中 。 


SC_COMPRESS 




















IFF_LINK0， 压 缩 TCP 通 信 
SC_NOICMP IFF_LINK1; 禁止 ICMP 通 信 
SC AUTOCOMP sc if.if flags IFF LINK2; 人 允许 TCP 自 动 压缩 


图 3-29 SLIP 的 if flags 和 sc flags 值 


SLIP 在 ifnet 结 构 中 定义 了 3 个 接口 标志 预 留 给 设备 驱动 程序 ， 男 一 个 标志 定义 在 结构 
sl softc 中 。 
sc_escape 用 于 串 行 线 的 IP 封 装机 制 (5.3 节 )， 而 TCP 首 部 压缩 信息 (29.13 布 ) 保 留 在 


8c IF.i1f Flags 


sc if.if flags 
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sc_comp 中 。 

指针 sc_bpf 指 向 SLIP 设 备 的 BPF 信 息 。 

结构 s1_softc 由 slattach 初 始 化 ， 如 图 3-30 所 示 。 
135-152 不 像 Ileattach 一 次 仅 初始 化 一 个 接口 ， 内 核 只 调用 一 次 slattach， 并 且 
slattach 初 始 化 所 有 的 SLIP 接 口 。 硬 件 设备 在 内 核 执 行 cpu_startup 过 程 中 被 发 现时 进 
行 初始 化 ， 而 伪 设 备 都 是 在 main 为 这 个 设备 调用 pdev_attach 函 数 时 被 初始 化 的 。 一 个 
SLIP 设 备 的 if_mtu 为 296 字 节 (SLMTU)。 这 包括 标准 的 20 字 节 IP 首 部 、 标 准 的 20 字 节 TCP 首 
部 和 256 字 节 的 用 户 数据 (53.3 节 )。 


if sl.c 
135 void 
136 slattach() 
137 1 
138 struct sl softc *sc; 
139 int i - 0; 
140 for (sc = sl softc; i < NSL; sc**) ( 
141 Sc-»sc if.if name = "sl"; 
142 Sc-»sc if.if next = NULL; 
143 Sc-»sc if.if unit = i-**; 
144 sSc-»sc if.if mtu = SLMTU; 
145 sc-»sc if.if. flags = 
146 IFF POINTOPOINT | SC AUTOCOMP | IFF MULTICAST; 
147 sc-»sc if.if type - IFT SLIP; 
148 sc-»sc if.if ioctl = slioctl; 
149 sc-»sc if.if output = sloutput; 
150 Ssc-»sc if.if snd.ifq maxlen = 50; 
151 Sc-»sc fastq.ifq maxlen = 32; 
152 if attach(&sc-»sc if); 
153 bpfattach(&sc-»sc bpf, &sc-»sc if, DLT SLIP, SLIP HDRLEN); 
154 ) 
155 } 

if_sl.c 


[3-30 图 数 slLattach 


SLIP 网 络 由 位 于 串 行 通 信 线 两 端的 两 个 接口 组 成 。slattach 在 if_flags 中 设置 
IFF POINTOPOINT, SC AUTOCOMPZHIFF MULTICAST, 

SLIP 接 口 限制 它 的 输出 分 组 队列 i£f_snd 的 长 度 为 50， 并 且 它 自己 的 接口 队列 sc_fastq 
的 长 度 为 32。 图 3-42 显 示 ， 如 果 了 驱动 程 序 没有 设置 长 度 ，if_snd 队 列 的 长 度 默 认为 
50(ifqmaxlen)， 因 此 这 里 的 初始 化 是 多 余 的 。 

以 太 网 设备 驱动 程序 不 显 式 地 设置 它 的 输出 队列 的 长 度 ,， 它 依赖 于 ifinit (图 

3-42) 把 它 设 置 为 系统 的 默认 值 。 

if attach 需要 一 个 指向 ifnet 结 构 的 指针 ， 因 此 slattach 将 sc_if 的 地 址 传递 给 
if attach，sc_if 是 一 个 第 一 个 成 员 为 结构 sl_softc 的 ijfnet 结 构 。 

专用 程序 slattach 在 内 核 初始 化 后 运行 (从 初始 化 文件 /etc/netstart)， 并 通过 打开 
串 行 设备 和 执行 ioct1 命 令 (5.3 节 ) 添 加 SLIP 接 口 和 异步 串 行 设备 。 

153-155 对 于 每 个 SLIP 设 备 ，slattach 调 用 bpfattach 来 登记 带 BPF 的 接口 。 


3.10 环 回 初始 化 
最 后 显示 环 回 接口 的 初始 化 。 环 回 接口 把 输出 分 组 放 回 到 相应 的 输入 队列 中 。 接 口 没 有 
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相关 联 的 硬件 设备 。 环 回 伪 设备 在 main 通 过 环 回 接口 的 pdaevinit 结 构 中 的 pdev_attach 
指针 直接 调用 loopattach 时 初始 化 。 图 3-31 所 示 的 是 国 数 1oopattach。 





41 void Joop. 
42 loopattach (n) 
43 int n; 
44 ( 
45 struct ifnet *ifp - &loif; 
46 ifp-»if name = "lo"; 
47 ifp-»if mtu = LOMTU; 
48 ifp-»if flags = IFF LOOPBACK | IFF MULTICAST; 
49 ifp-»if ioctl = loioctl; 
50 ifp-»if output = looutput; 
51 ifp-»if type = IFT LOOP; 
52 ifp-»if hdrlen = 0; 
53 ifp-»if, addrlen = 0; 
54 if attach(ifp); 
55 bpfattach(&ifp-»if bpf, ifp, DLT NULL, sizeof(u int)); 
56. ) 
if loop.c 





图 3-31 环 回 接口 初始 化 


41-56 环 回 if_mtu 被 设置 为 1536 字 节 (LOMTU)。 在 if_flags 中 设置 IFF_LOOPBACK 和 
IFF MULTICAST, 一 个 环 回 接口 没有 链 路 首部 和 硬件 地 址 ， 因 此 if_hadrlen 和 if_addrlen 
被 设置 为 0。if_attach 完 成 ifnet 结 构 的 初始 化 并 且 bpfattach 登 记 带 BPF 的 环 回 接口 。 
环 回 MTU 至 少 有 1576( 即 40 + 3x512) 字 节 留 给 一 个 标准 的 TCP/IP 首 部 。 例 如 
Solaris 2.3 环 回 MTU 设 置 为 8232( 即 40 + 8x1024) 字 节 。 这 些 计 算 基 于 Internet 协 议 ; 
而 其 他 协议 可 能 有 大 于 40 字 节 的 默认 首部 。 


3.11 if attach 函数 


前 面 显示 的 三 个 接口 初始 化 函数 都 调用 if_attach 来 完成 接口 的 ijfnet 结 构 的 初始 化 ， 
并 把 这 个 结构 播 到 先前 配置 的 接口 的 列表 中 。 在 if_attach 中 ， 内 核 也 为 每 个 接口 初始 化 并 
分 配 一 个 链 路 层 地 址 。 图 3-32 说 明了 由 ifE_attach 构 造 的 数据 结构 。 


ifnet: le softc[0]: sl softc[0]: loif: 
c 
ifnet addrs: 





图 3-32 ifnet 列 表 
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在 图 3-32 中 ，if attach 被 调用 了 三 次 : 以 一 个 le _ softc 结 构 为 参数 从 leattach 调 
用 ,以 一 个 sl_softc 结 构 为 参数 从 slattach 调 用 ， 以 一 个 通用 ifnet 结 构 为 参数 从 
loopattach 调 用 。 每 次 调用 时 ， 它 向 ifnet 列 表 中 添加 一 个 新 的 ifnet 结 构 ， 为 这 个 接口 
创建 一 个 链 路 层 ifaddr 结 构 ( 包 含 两 个 sockaddr_d1l 结 构 ， 见 图 3-33)， 并 且 初 始 化 
ifnet addrs 数 组 中 的 一 项 。 


if d.h 
55 struct sockaddr dl ( 
56 u_char sdl len; /* Total length of sockaddr */ 
57 u_char sdl. family; /* AF LINK */ 
58 u short sdl, index; /* if != 0, system given index for 
59 interface */ 
60 u_char Ssdl type; /* interface type (Figure 3.9) */ 
61 u_char sdl nlen; /* interface name length, no trailing 0 
62 reqd. */ 
63 u_char sdl alen; /* link level address length */ 
64 u_char sdl slen; /* link layer selector length */ 
65 char sdl. data[12]; /* minimum work area, can be larger; 
66 contains both if name and 11 address */ 
67 ) 
68 4$define LLADDR(s) ((caddr t)((s)-»sdl data + (s)-»sdl nlen)) if dh 


图 3-33 ”结构 sockaddr dl 


图 3-20 显 示 了 包含 在 le softc[0]fesl softc[0] v $93x £25 34, 


彻 始 化 以 后 ， 接 口 仅 配置 链 路 层 地 址 。 例 如 ，IP 地 址 直到 后 面 讨论 的 jf£fconfig 程 序 才 
配置 (6.6 市 )。 

链 路 层 地 址 包含 接口 的 逻辑 地 址 和 硬件 地 址 (如 果 网 络 支持 , 例如 1e0 的 48 位 以 太 网 地 址 )。 
在 ARP 和 OSI 协 议 中 要 用 到 这 个 硬件 地 址 ， 而 一 个 sockaddr_d1l 中 的 逻辑 地 址 包含 一 个 名 称 
和 这 个 接口 在 内 核 中 的 索引 数值 ， 它 支持 用 于 在 接口 索引 和 关联 ijfaddr 结 构 
(ifa ifwithnet， 图 6-32) 间 相互 转换 的 表 查 找 ，。 

结构 sockaddr dl 显示 在 图 3-33 中 ， 
55-57 回忆 图 3-18，sdl_len 指 明了 整个 地 址 的 长 度 ， 而 sdl_family 指 明了 地 址 族 类 ， 
在 此 例 中 为 AF_LINK。 
58 sdl index 在 内 核 中 标识 接口 。 图 3-32 中 的 以 太 网 接口 的 索引 为 1，SLIP 接 口 的 索 
引 为 2， 而 环 回 接口 的 索引 为 3。 全 局 整数 变量 if_index 包 含 的 是 内 核 最 近 分 配 的 一 个 索 
引 值 。 
60 sdl_type 根 据 这 个 数据 链 路 地 址 的 ifnet 结 构 的 成 员 if_type 进 行 初 始 化 。 
61-68 除了 一 个 数字 索引 ， 每 个 接口 有 一 个 由 结构 ifnet 的 成 员 if_name 和 if_unit 组 成 
的 文本 名 称 。 例 如 ， 第 一 个 SLIP 接 口 叫 “s10”， 而 第 二 个 叫 “s11?。 文 本 名 称 存储 在 数组 
sdql_dqata 的 前 面 ， 并 且 sdq1l_nlen 为 这 个 名 称 的 字 节 长 度 (在 我 们 的 SLIP 例 子 中 为 3)。 

数据 链 路 地 址 也 存储 在 这 个 结构 中 。 宏 LLADDR 将 一 个 指向 sockaddr_d1 结 构 的 指针 转 
换 成 一 个 指向 这 个 文本 名 称 的 第 一 个 字 节 的 指针 。sdl_alen 是 硬件 地 址 的 长 度 。 对 于 一 个 
以 太 网 设备 ，48 位 硬件 地 址 位 于 结构 sockaddr dl 的 这 个 文本 名 称 的 前 面 。 图 3-38 所 示 的 是 
一 个 初始 化 了 的 sockaddqr dl 结构 。 
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Net/3 不 使 用 sdl slen, 

if_attach 更 新 两 个 全 局 变量 。 第 一 个 是 if_index， 它 存放 系统 中 的 最 后 一 个 接口 的 
索引 ; 第 二 个 是 ifnet_addrs， 它 指向 一 个 ifaddr 指 针 的 数组 。 这 个 数组 的 每 项 都 指 同 一 
个 接口 的 链 路 层 地 址 。 这 个 数组 提供 对 系统 中 每 个 接口 的 链 路 层 地 址 的 快速 访问 。 

函数 if_attach 较 长 ， 并 且 有 几 个 奇怪 的 赋值 语句 。 从 图 3-34 开 始 ， 我 们 分 5 个 部 分 讨 
论 这 个 函数 。 


59-74 


if_attach 有 一 个 参数 ifPp， 这 是 一 个 指向 ifnet 结 构 的 指针 ， 由 网 络 设备 驱动 程 


序 初始 化 。Net/3 在 一 个 链表 中 维护 所 有 这 些 ifnet 结 构 ， 全 局 指针 ifnet 指 向 这 个 链表 的 首 
部 。whi1le 循 环 查 找 链表 的 尾部 ， 并 将 链表 尾部 的 空 指 针 的 地 址 存储 到 p 中 。 在 循环 后 ， 新 
ifnet 结 构 被 接 到 这 个 ifnet 链 表 的 尾部 ，if_index 加 1， 并 且 将 新 索引 值 赋 给 ifp-> 


if index, 


59 void pe 
60 if attach(ifp) 
61 struct ifnet *ifp; 
62 ( 
63 unsigned socksize, ifasize; 
64 int namelen, unitlen, masklen, ether. output(); 
65 char workbuf[12], *unitname; 
66 struct ifnet **p = &ifnet;  /* head of interface list */ 
67 struct sockaddr dl *sdl; 
68 struct ifaddr *ifa; 
69 static int if indexlim - 8; /* size of ifnet, addrs array */ 
70 extern void link rtrequest(); 
71 while (*p) /* find end of interface list */ 
F2 p = &((*p)-»if next); 
73 *D = ifp; 
74 ifp->if_index = ++if_index; /* assign next index */ 
75 /* resize ifnet addrs array if necessary */ 
76 if (ifnet addrs -- 0 || if index »- if indexlim) ( 
73 unsigned n - (if indexlim ««- 1) * sizeof(ifa); 
78 struct ifaddr **q = (struct ifaddr **) 
79 mallocí(n, M IFADDR, M, WAITOK); 
80 if (ifnet addrs) ( 
81 bcopy((caddr t) ifnet addrs, (caddr t) q, n / 2); 
82 free((caddr t) ifnet addrs, M IFADDR); 
83 ) 
84 ifnet addrs - q; 
85 ) 
if.c 


图 3-34 Kif attach: 分 配 接口 索引 


1. 必要 时 调整 -fnet addrs 数 组 的 大 小 
75-85 第 一 次 调用 if_ attach 时 ， 数 组 ifnet _addrs 不 存在 ， 因 此 要 分 配 16(16=8<<1) 项 
的 空间 。 当 数组 满 时 ， 一 个 两 倍 大 的 新 数组 被 分 配 ， 并 且 老 数组 中 的 项 被 复制 到 新 的 数组 中 。 


if indexlim 是 if attach 私 有 的 一 个 静态 变量 。if. indexlim 通 过 <<= 操 


作 符 来 更 新 。 
图 3-34 中 的 函数 malloc 和 free 不 是 同名 的 标准 C 库 函数 。 内 核 版 的 第 二 个 参数 指明 一 个 
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类 型 , 内 核 中 可 选 的 诊断 代码 用 它 来 检测 程序 错误 。 如 果 mal1loc 的 第 三 个 参数 为 M_WRAITOK， 
且 尔 数 需 要 等 待 释放 的 可 用 内 存 ， 则 阻塞 调用 进程 。 如 果 第 三 个 参数 为 MY_DONTWAIT， 则 当 
内 存 不 可 用 时 ， 国 数 不 阻 塞 并 返回 一 个 空 指 针 。 

国 数 if_attach 的 下 一 部 分 显示 在 图 3-35$ 中 ， 它 为 接口 准备 一 个 文本 名 称 并 计算 链 路 层 
地 址 的 长 度 。 


86 /* create a Link Level name for this device */ pe 

87 unitname = sprint d((u int) ifp-»if unit, workbuf, sizeof(workbuf)); 

88 namelen - strlen(ifp-»if name); 

89 unitlen = strlen(unitname); 

90 /* compute size of sockaddr dl structure for this device */ 

91 #define .offsetof(t, m) ((int)((caddr t)&((t *)0)-»m)) 

92 masklen = _offsetof (struct sockaddr dl, sdl data[0]) + 

93 unitlen + namelen; 

94 Socksize = masklen + ifp-»if addrlen; 

95 &define ROUNDUP (a) (1 + (((a) - 1) | (sizeof(long) - 1))) 

96 socksize = ROUNDUP(socksize); 

97 if (socksize < sizeof(*sdl)) 

98 socksize - sizeof(*sdl); 

99 ifasize = sizeof(*ifa) + 2 * socksize; j 
HE 


图 3-35 if_attach 国 数 : 计算 链 路 层 地 址 大 小 
2. 创建 链 路 层 名 称 并 计算 链 路 层 地 址 的 长 度 
86-99 if attach 用 if _ unit 和 if name 组装 接 口 的 名 称 。 国 数 spzrint dif unit 
的 数值 转换 成 一 个 串 并 存储 到 workbuf 中 。masklen 是 sockaddqr dl 数组 中 sdl datai 
面 的 信息 所 占用 的 字 节 数 加 上 这 个 接口 的 文本 名 称 的 大 
小 (namelen + unitlen)。 国 数 对 socksize 进 行 NO 






“上 舍 入 ”，socksize 是 masklen 加 上 硬件 地 址 长 度 — ifaddr(O ee 
(if_addrlen)， 上 舍 入 为 一 个 长 整 型 (ROUNDUP)。 如 x 


果 它 小 于 一 个 sockaddr_qdl 结 构 的 长 度 ， 就 使 用 标准 


的 sockaddr dl 结构 。ifasize 是 一 个 ifaddr 结 构 
的 大 小 加 上 两 倍 的 socksize， 因 此 ， 它 能 容纳 结构 
sockaddr dl, 

在 国 数 的 下 一 部 分 中 ，if_attach 分 配 结构 并 将 图 3-36 在 if_attach 中 分 配 的 
结构 连接 起 来 ， 如 图 3-36 所 示 。 链 路 层 地 址 和 掩 码 

图 3-36 中 ， 在 ifaddr 结 构 与 两 个 sockaddr dl 结构 间 有 一 个 空 阶 ， 用 来 说 明 

它们 分 配 在 一 个 连续 的 内 存 中 但 没有 定义 在 一 个 C 结 构 中 。 

像 图 3-36 所 示 的 组 织 还 出 现在 结构 in_ifaddr 中 ;在 这 个 结构 的 通用 ifaddr 部 分 中 的 指 
针 指 同 在 这 个 结构 的 设备 专用 部 分 中 的 专用 化 sockaddr 结 构 ， 在 本 例 中 是 结构 
sockaddr_dl。 图 3-37 所 示 的 是 这 些 结 构 的 初始 化 。 

3. 地 址 
100-116 如果 有 足够 的 内 存 可 用 ，bzero 把 新 结构 清 零 ， 并 且 sdl 指 向 紧 接 着 ifnet 结 构 
的 第 一 个 sockaddr_dl。 阁 没有 可 用 内 存 ， 代 码 被 忽略 。 

sdl_len 被 设置 为 结构 sockaddr _d1 的 长 度 ， 并 且 sdl family 被 设置 为 AF LINK, 
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用 if_name 和 unitname 组 成 的 文本 名 称 存放 在 sdl_data 中 ， 而 它 的 长 度 存放 在 
sdl_nlen 中 。 接 口 的 索引 被 复制 到 sdl_index 中 ， 而 接口 的 类 型 被 复制 到 sdl_type 中 。 
分 配 的 结构 被 插入 数组 ifnet addrs 中 ， 并 通过 ifa ifp 和 ifa addqr1list 链 接 到 结构 
ifnet。 最 后 ， 结 构 sockaddr dl 用 ifa addr 链 接 到 ifnet 结 构 。 以 太 网 接口 用 
arp rtrequest 取 代 默 认 函 数 1ink rtrequest。 环 回 接口 装 入 函数 
loop_rtrequest。 我 们 在 第 19 章 和 第 21 章 讨论 ijfa rtrequest 和 arp rtrequest, 
而 linkrtrequest 和 loop rtrequest 留 给 读者 自己 去 研究 。 以 上 完成 了 第 一 个 
sockaddr dl 结构 的 初始 化 。 


100 if (ifa = (struct ifaddr *) malloc(ifasize, M IFADDR, M WAITOK)) { ye 
101 bzero((caddr t) ifa, ifasize); 
102 /* First: initialize the sockaddr dl address */ 
103 sdi = (struct sockaddr dl *) (ifa + 1); 
104 sdl-»sdl len - socksize; 
105 sdl-»-sdl, family = AF LINK; 
106 bcopy(ifp-»if name, sdl-»sdl data, namelen); 
107 bcopy(unitname, namelen + (caddr t) sdl-»sdl. data, unitlen); 
108 sdl-»sdl. nlen = (namelen += unitlen); 
109 sdl-»sdl index = ifp-»if index; 
110 sdl-»sdl, type = ifp-»if type; 
LEL ifnet, addrs[if index - 1] = ifa; 
112 ifa-»ifa ifp = ifpi 
113 ifa-»ifa next = ifp-»if addrlist; 
114 ifa-»ifa rtrequest = link rtrequest; 
115 ifp-»if addrlist = ifa; 
116 ifa-»ifa addr = (struct sockaddr *) sdl; 
117 /* Second: initialize the sockaddr dl mask */ 
118 sdl = (struct sockaddr dl *) (socksize + (caddr t) sdl); 
119 ifa-»ifa netmask = (struct sockaddr *) sdl; 
120 sdl-»sdl len = masklen; 
321 while (namelen != 0) 
122 sdl-»sdl data[--namelen] = Oxff; 
123 ) 
if.c 


图 3-37 函数 if_attach: 分 配 并 初始 化 链 路 层 地 址 


4. W 
117-123 第 二 个 sockaddr_d1 结 构 是 一 个 比特 掩 码 ， 用 来 选择 出 现在 第 一 个 结构 中 的 文 
本 名 称 。ifa_netmask 从 结构 ifaddr 指 向 掩 码 结构 (在 这 里 是 选择 接口 文本 名 称 而 不 是 网 
络 掩 码 )。while 循 坏 把 与 名 称 对 应 的 那些 字 市 的 每 个 比特 都 置 为 1。 

图 3-38 所 示 的 是 我 们 以 太 网 接口 例子 的 两 个 初始 化 了 的 sockaddr_dl 结 构 。 它 的 
if nameJj "le", if unit 为 0，if_ index 为 ]。 

图 3-38 中 所 示 的 是 ether_ifattach 对 这 个 结构 初始 化 后 的 地 址 (图 3-41)。 

图 3-39 所 示 的 是 第 一 个 接口 链接 if_attach 后 的 结构 。 

在 if_attach 的 最 后 ， 以 太 网 设备 的 国 数 ether_ifattach 被 调用 ， 如 图 3-40 所 示 。 
124-127 开始 不 调用 ether ifattach (例如 : 从 leattach), 是 因为 它 要 把 以 太 网 硬件 
地 址 复制 到 if attach 分 配 的 sockaddr dlp, 


XXX 注释 表示 作者 发 现在 此 处 插入 代码 比 修改 所 有 的 以 太 网 驱动 程序 要 容易 。 
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图 3-38 初始 化 了 的 以 太 网 sockadqdqr dl1 结 构 ( 省 略 了 前 缀 sdl_) 
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图 3-39 第 一 次 调用 if_attach 后 的 ifnet 和 sockaddqr dl 结构 





ie 
124 /* XXX -- Temporary fix before changing 10 ethernet drivers */ jf 
125 if (ifp-»if output == ether output) 
126 ether ifattach(ifp); 
141 3 à 
if.c 
图 3-40 函数 if attach: 以 太 网 初始 化 
if ethersubr.c 





338 void 
339 ether ifattach(ifp) 
340 struct ifnet *ifp; 


341 ( 

342 struct ifaddr *ifa; 

343 struct sockaddr dl *sdl; 

344 ifp-»if type = IFT ETHER; 

345 ifp-»if addrlen = 6; 

346 ifp-»if hdrlen = 14; 

347 ifp-»if mtu = ETHERMTU; 

348 for (ifa - ifp-»if addrlist; ifa; ifa - ifa-»ifa next) 
349 if ((sdl = (struct sockaddr dl *) ifa-»ifa addr) && 


图 3-41 图 数 ether ifattach 
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350 sdl-»sdl family == AF LINK) ( 
351 sdl-»sdl type = IFT ETHER; 
352 sdl->sdl_alen = ifp->if_addrlen; 
353 bcopy((caddr t) ((struct arpcom *) ifp)->ac_enaddr, 
354 LLADDR (sdl), ifp-»if addrlen); 
355 break; 
356 ) 
357 } 
if_ethersubr.c 
图 3-41 (4) 


S.ether ifattachH2Zy 
国 数 ethezr_ifattach 执 行 对 所 有 以 太 网 设备 通用 的 ifnet 结 构 的 初始 化 。 
338-357 对 于 一 个 以 太 网 设备 ，if_type 为 IFT_ETHER， 硬 件 地 址 有 6 字 市 ， 整 个 以 太 网 
首部 有 14 字 节 ， 而 以 太 网 MTU 为 1500 字 节 (ETHERMTU)。 
leattach 已 经 指派 了 MTU，, 但 其 他 以 太 网 设备 驱动 程序 可 能 没有 执行 这 个 初始 化 。 


4.3 市 讨论 以 太 网 帆 组 织 的 更 多 细 广 。f£for 循 环 定位 接口 的 链 路 层 地 址 ， 然 后 初始 化 结构 
sockaddr_dl 中 的 以 太 网 硬件 地 址 信息 。 在 系统 初始 化 时 ， 以 太 网 地 址 被 复制 到 结构 
arpcom 中 ， 现 在 被 复制 到 链 路 层 地 址 中 。 


3.12 ifinitBjZy 


接口 结构 被 初始 化 并 链接 到 一 起 后 ，main (图 3-23) 调 用 ifinit， 如 图 3-42 所 示 。 

43 void fc 
44 ifinit() 

45 ( 

46 struct ifnet *ifp; 


47 for (ifp = ifnet; ifp; ifp = ifp-»if next) 

48 if (ifp-»if snd.ifq maxlen == 0) 

49 ifp-»if snd.ifq maxlen = ifqmaxlen; /* set default length */ 
50 if slowtimo(0); 


if.c 
图 3-42 函数 ifinit 
43-51 for 人 循环 志 历 接口 列表 ， 并 把 没有 被 接口 的 attach 函 数 设 置 的 每 个 接口 输出 队列 的 
最 大 长 度 设置 为 50 (ifqmaxlen)。 
输出 队列 的 大 小 关键 要 考虑 的 是 发 送 最 大 长 度数 据 报 的 分 组 的 个 数 。 例 如 以 太 
BJ, AX —^ ub4E34sendtoAiÉ£65 507 字 节 的 数据 ， 它 被 分 为 45 个 数据 报 片 ， 并 且 
每 个 数据 报 片 被 放 进 接口 的 输出 队列 。 若 队列 非常 小 ， 由 于 队列 没有 空间 ， 进 程 可 
能 不 能 发 送 大 的 数据 报 。 
if_slowtimo 启 动 接口 的 监视 (watchdog) 定时 器 。 当 一 个 接口 的 定时 器 到 期 ， 内 核 会 调用 
这 个 接口 的 监视 定时 强 函数。 一 个 接口 可 以 提前 重 设 定时 器 来 阻止 监视 定时 器 函数 的 调用 ,或 者 ， 
各 不 需要 监视 定时 器 国 数 ， 则 可 以 把 iE _ timer 设 置 为 0。 图 3-43 所 示 的 是 国 数 iE_sLowtimo。 
338-343 if_slowtimo 国 数 有 一 个 参数 arg 设 有 使 用 ， 但 慢 超时 国 数 的 原型 (7.4 节 ) 要 求 有 
这 个 参数 。 
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338 void Pu 
339 if slowtimo(arg) 
340 void *ayg: 
341 ( 
342 struct ifnet *ifp; 
343 int S - splimp(); 
344 for (ifp = ifnet; ifp; ifp = ifp-»iFf.next) ( 
345 if (ifp-»if timer == 0 || --ifp-»if timer) 
346 continue; 
347 if (ifp-»if watchdog) 
348 (*ifp-»if watchdog) (ifp-»if unit); 
349 ) 
350 splx(s); 
351 timeout(if slowtimo, (void *) 0, hz / IFNET SLOWHZ); 
352 } 
if.c 


图 3-43 ” 国 数 if slowtimo 


344-352 if slowtimo 和 忽略 i£f timer 为 0 的 接口 ; 者 if timer 不 等 于 0， 
if _ slowtimo 把 if_timer 减 1， 并 在 这 个 定时 器 到 达 0 时 调用 这 个 接口 关联 的 
if _ watchdog 畏 数 。 在 调用 if slowtimo 上 时 ,分 组 处 理 进 程 被 splimp 阻 寒 。 返回 前 ， 
ip _ slowtimo 调 用 timeout， 以 hz/IFNET SLOWHZ 时 钟 频 率 调度 对 它 上 自己 的 调用 。hz 是 
1 秒 内 时 钟 滴 答 数 (通常 是 100)。 它 在 系统 初始 化 时 设置 ， 并 保持 不 变 。 因 为 ILFNET_SLOWHZ 
被 定义 为 1!1， 因 此 内 核 每 赫兹 调用 一 次 if_slowtimo， 即 每 秒 一 次 。 

dX tcimeout78/£ $7 x Aak A 4 3d callout m, 1# I [Leffler er al. 1989], 
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在 本 章 我 们 研究 了 结构 ifnet 和 ifaddqr， 它 们 被 分 配给 在 系统 初始 化 时 发 现 的 每 一 个 网 
络 接口 。 结 构 ifnet 链 接 成 ifnet 链 表 。 每 个 接口 的 链 路 层 地 址 被 初始 化 ， 并 被 加 到 ifnet 
结构 的 地 址 链表 中 ， 还 存放 到 数组 if_addrs 中 。 
我 们 讨论 了 通用 sockaddr 结 构 及 其 成 员 sa_family 和 sa_len， 它 们 标识 每 个 地 址 的 
类 型 和 长 度 。 我 们 还 查看 了 一 个 链 路 层 地 址 的 sockaddr_d1l 结 构 的 初始 化 。 
在 本 章 中 ， 我 们 还 介绍 了 在 全 书 中 要 用 到 的 三 个 网 络 接 口 例子 。 
习题 
3.1 很 多 Unix 系 统 中 的 netstat 程 序列 出 网 络 接口 及 其 配置 信息 。 在 你 接触 的 系统 中 试 
一 下 命令 netstat -i。 那 个 网 络 接口 的 名 称 (if_name) 是 什么 ?传输 单元 的 最 大 
长 度 (if_mtu) 是 多 少 ? 
3.2 在 if_slowtimo (图 3-43) 中 ,调用 splimp 和 splx 出 现在 循环 的 外 面 。 与 把 这 些 
调用 放 到 循环 内 部 相 比 ， 这 样 安 排 有 何 优 缺 点 ? 
3.3 为 什么 SLIP 的 交互 队列 比 它 的 标准 输出 队列 要 短 ? 
3.4 为 什么 ijf hdrlen 和 if addrlen 不 在 siattach 中 初始 化 ? 
3.5 为 SLIP 和 环 回 设备 画 一 个 与 图 3-38 类 似 的 图 。 


第 4 和 章 接口 : 以 太 网 


4.1 引言 


在 第 3 章 中 ， 我 们 讨论 了 所 有 接口 要 用 到 的 数据 结构 及 对 这 些 数据 结构 的 初始 化 。 在 本 章 
中 ， 我 们 说 明 以 太 网 设备 驱动 程序 在 初始 化 后 是 如 何 接收 和 传输 帧 的 。 本 章 的 后 半 部 分 介绍 
配置 网 络 设备 的 通用 ioct1 命 令 。 第 5 章 是 SLIP 和 环 回 驱动 程序 。 

我 们 不 准备 查看 整个 以 太 网 驱动 程序 的 源 代码 ， 因 为 它 有 大 约 1 000 行 C 代 码 ( 其 中 有 一 半 
是 一 个 特定 接口 卡 的 硬件 细节 )， 但 要 研究 与 设备 无 关 的 以 太 网 代码 部 分 ， 及 驱动 程序 是 如 何 
与 内 核 其 他 部 分 交互 的 。 

如 果 读 者 对 一 个 驱动 程序 的 源 代码 感 兴趣 ，Net/3 版 本 包括 很 多 不 同 接 口 的 源 代码 。 要 想 
研究 接口 的 技术 规范 ， 就 要 求 能 理解 设备 专用 的 命令 。 图 4-1 所 示 的 是 Net/3 提 供 的 各 种 驱动 程 
序 ， 包 括 在 本 章 我 们 要 讨论 的 LANCE 驱 动 程序 。 

网 络 设备 驱动 程序 通过 ifnet 结 构 ( 图 3-6) 中 的 7 个 函数 指针 来 访问 。 图 4-2 列 出 了 指向 我 
们 的 三 个 例子 驱动 程序 的 入 口 点 。 

输入 函数 不 包含 在 图 4-2 中 ， 因 为 它们 是 网 络 设 备 中 断 驱 动 的 。 中 断 服务 例 程 的 配置 与 硬件 相 
关 ， 并 且 超 出 了 本 书 的 范围 。 我 们 要 识别 处 理 设 备 中 断 的 函数 ， 但 不 是 这 些 函数 被 调用 的 机 制 。 


DEC DEUNA 接 口 vax/if/if de. 
3Com 以 太 网 接口 vax/if/if ec. 
Excelan EXOS 2044: H vax/if/if ex. 
Interlanl 以 太 网 通信 控制 器 vax/if/if il. 
Interlan NP100LX P138 fi $2 fll 2& vax/if/if ix. 


Digital Q-BUS to NIE BR zs vax/if/if qe.c 
CMC ENP-20 以 太 网 控制 器 tahoe/if/if enp.c 
Excelan EXOS 202 (VME) & 203 (QBUS) tahoe/if/if ex.c 
ACC VERSAbus 以 太 网 控制 器 tahoe/if/if ace.c 
AMD 7990 LANCE4£Z H hp300/dev/if le.c 
NE2000 以 太 网 i386/isa/if ne.c 
Western Digital 8003 以 太 网 适 配 费 i386/isa/if_we.c 


图 4-1 Net3 中 可 用 的 以 太 网 驱动 程序 





leinit 硬件 初始 化 
if output ether output slouput looutput 接收 并 对 传输 的 帧 进行 排队 
if start lestart 开始 传输 帧 


if done 输出 完成 (未 用 ) 

if ioctl leioctl slioctl lcioctl 处 理 来 自 一 个 进程 的 ioct1 命 令 
if reset lereset 把 设备 复位 到 已 知 的 状态 

if watchdog 监视 设备 故障 或 收集 统计 信息 





图 4-2 例子 驱动 程序 的 接口 函数 
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RA SKif outputfeif ioctl 被 经 常 地 调用 。 而 if init、if _ done 和 
if_reset 从 来 不 被 调用 或 仅 从 设备 专用 代码 调用 (例如 : leinit 直 接 被 leioctl 
HA) d Xif startit d XKether output 调 用 ， 


4.2 代码 介绍 


以 太 网 设备 驱动 程序 和 通用 接口 ioct1 的 代码 包含 在 两 个 头 文件 和 三 个 C 文 件 中 ， 它 们 列 
于 图 4-3 中 。 


net/if ether.h 以 太 网 结构 
net/if.h ioct1 命 令 定义 


net/if ethersubr.c 通用 以 太 网 函数 
hp300/dev/if le.c LANCE 以 太 网 驱动 程序 
net/if.c ioct1 处 理 


图 4-3 在 本 章 讨论 的 文件 





4.2.1 全 局 变量 
显示 在 图 4-4 中 的 全 局 变量 包括 协议 输入 队列 、LANCE 接 口 结构 和 以 太 网 广播 地 址 。 


arpintrq struct ifqueue ARP 输 入 队列 
clnlintrq struct ifqueue CLNP 输 入 队列 


ipintrq struct ifqueue IP 输 入 队列 
le softc struct le softc[] | LANCE 以 太 网 接口 
etherbraodcastaddr | u_char [] 以 太 网 广播 地 址 





图 4-4 本 章 介 绍 的 全 局 变量 
le_softc 是 一 个 数组 ， 因 为 这 里 可 以 有 多 个 以 太 网 接口 。 
4.2.2 统计 量 


结构 ifnet 中 为 每 个 接口 收集 的 统计 量 如 图 4-5 所 示 。 

图 4-6 显 示 了 netstat 命 令 的 一 些 输出 例子 ， 包 括 ifnet 结 构 中 的 一 些 统计 信息 。 

第 1 列 包含 显示 为 一 个 字符 串 的 if_name 和 if_unit。 若 接口 是 关闭 的 (不 设置 IFF_UP)， 
一 个 星 号 显示 在 这 个 名 字 的 旁边 。 在 图 4-6 中 ，s10、s12 和 s13 是 关闭 的 。 

第 2 列 显示 的 是 if_mtu。 在 表 头 “Network” 和 “Rddress ”底下 的 输出 依赖 于 地 址 的 
类 型 。 对 于 链 路 层 地 址 ， 显 示 了 结构 sockaddr_d1l1 的 sdl_data 的 内 容 。 对 于 IP 地 址 ， 显 
示 了 子 网 和 单 播 地 址 。 其 余 的 列 是 if ipackets, if ierrors, if opackets, 
if oerrors 和 if collisions, 

。 在 输出 中 冲突 的 分 组 大 约 有 3% (942 798 / 23 234 729 ), 

。 这 个 机 器 的 SLIP 输 出 队列 从 未 满 过 ， 因 为 SLIP 接 口 的 输出 没有 差错 。 

。 在 传输 中 ，LANCE 硬 件 检测 到 12 个 以 太 网 的 输出 差错 。 其 中 有 些 差 错 可 能 被 视 为 冲突 。 

。 硬件 检测 出 814 个 以 太 网 的 输入 差错 ， 例 如 分 组 太 短 或 错误 的 检验 和 。 
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在 CSMA 接 口 的 冲突 数 











if collisions 





































if ibytes 接收 到 的 字 市 总 数 
if_ierrors 接收 到 的 有 输入 差错 分 组 数 
if imcasts 接收 到 的 多 播 分 组 数 

if ipackets 在 接口 接收 到 的 分 组 数 

if iqdrops 被 此 接口 丢失 的 输入 分 组 数 
if lastchange 上 一 次 改变 统计 的 时 间 

if noproto 指定 为 不 支持 协议 的 分 组 数 
if obytes 发 送 的 字 市 总 数 

if oerrors 接口 上 输出 的 差错 数 

if omcasts 发 送 的 多 播 分 组 数 

if opackets 接口 上 发 送 的 分 组 数 

if snd.ifq drops | 在 输出 期 间 丢 失 的 分 组 数 





if snd.ifq len 输出 队列 中 的 分 组 数 


图 4-5 结构 ifnet 中 维护 的 统计 


netstat -i output 
P 








Network Address Ipkts Ierrs Opkts Oerrs Coll 
le0 1500 «Link»8.0.9.13.d.33 28680519 814 29234729 12 942798 
leO 1500 4128.32.33 128,.32.33.5 28680519 814 29234729 12 942798 


«Link» 54036 0 45402 0 0 
slO* 296 129.32,.33 128.32.33,5 54036 45402 


sl1l 296 «Link» 40397 33544 
SLI 296 128.32.33 128.32.33.5 40397 33544 


sl2* 296 «Link» 0 0 
sl3* 296 «Link» 0 0 


lo0 1536 «Link» 493599 493599 
127 127.0.0.1 493599 493599 



















O O O oO oo o 
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图 4-6 接口 统计 的 样本 


4.2.3 SNMP 变 量 


图 4-7 所 示 的 是 SNMP 接 口 表 (ifTable) 中 的 一 个 接口 项 对 象 (ifEntry)， 它 包含 在 每 个 
接口 的 ifnet 结 构 中 。 

ISODE SNMP 代 理 从 if type 获得 ifSpeed, 并 为 fAdminstatus 维 护 一 个 内 部 变量 。 
代理 的 ifLastchange 基 于 结构 ifnet 中 的 if lastchange, 但 与 代理 的 启动 时 间 相关 ， 
而 不 是 与 系统 的 启动 时 间 相 关 。 代 理 为 ifSpecific 返 回 一 个 空 变 量 。 


接口 表 ， 索 引 =<iflIndex> 


ifIndex if index 唯一 地 标识 接口 
ifDescr if name 接口 的 文本 名 称 
ifType if type 接口 的 类 型 (例如 以 太 网 、SLIP 等 等 ) 


图 4-7 接口 表 ifTable 的 变量 





4.3 


SNMP 变 量 


ifMtu 

ifSpeed 
ifPhysAddress 
ifAdminStatus 
ifOperStatus 
ifLastChange 
iflInOctets 
ifInUcastPkts 
ifInNUcastPkts 
iflInDiscards 
ifInErrors 
iflInUnknownProtos 
ifOutOctets 
ifOutUcastPkts 
ifOutNUcastPkts 
ifOutDiscards 
ifOutErrors 
ifOutQLen 


ifSpecific 


以 太 网 接口 
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接口 表 ， 索 引 =<ifIndex> 


if mtu 
(看 正文 ) 


ac enaddr 
(看 正文 ) 
if flags 
(看 正文 ) 
if ibytes 


if ipackets -if imcasts 


if imcasts 
if iqdrops 
if ierrors 
if noproto 


if obytes 


if opackets-if omcasts 


if omcasts 
if snd.ifq drops 


if oerrors 


if snd.ifq len 


n/a 





图 4-7 (£x) 


说 明 
接口 的 MTU ( 字 节 ) 
接口 的 正常 速率 (每 秒 比 特 ) 
媒体 地 址 (来 自 结构 arpcom) 
接口 的 期 望 状态 (IFF_UP 标 志 ) 
接口 的 操作 状态 (IFF_UP 标 志 ) 
上 一 次 统计 改变 时 间 
输入 的 字 节 总 数 
输入 的 单 播 分 组 数 
输入 的 广播 或 多 播 分 组 数 
因为 实现 的 限制 而 丢弃 的 分 组 数 
差错 的 分 组 数 
指定 为 未 知 协议 的 分 组 数 
输出 字 节 数 
输出 的 单 播 分 组 数 
输出 的 广播 或 多 播 分 组 数 
因为 实现 的 限制 而 丢失 的 输出 分 组 数 


因为 差错 而 丢失 的 输出 分 组 数 


输出 队列 长 度 
媒体 专用 信息 的 SNMP 对 象 ID (未 实现 ) 


Net/3 以 太 网 设备 驱动 程序 都 遵循 同样 的 设计 。 对 于 大 多 数 Unix 设 备 驱动 程序 来 说 ， 都 是 


这 样 ， 因 为 写 一 个 新 接口 卡 的 驱动 程序 总 是 在 一 个 已 有 的 驱动 程序 的 基础 上 修改 而 来 的 。 在 
本 节 ， 我 们 简要 地 概述 一 下 以 太 网 的 标准 和 一 个 以 太 网 驱动 程序 的 设计 。 我 们 用 LANCE 驱 动 
程序 来 说 明 这 个 设计 。 
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图 4-8 说 明了 一 个 IP 分 组 的 以 太 网 封装 。 


m 
6x5 5:2 


46~1500 字 节 : 4 字 节 


0800 


46~1500 F75 


图 4-8 一 个 IP 分 组 的 以 太 网 封装 


以 太 网 帧 包括 48 bit 的 目标 地 址 和 源 地址 ， 接 下 来 是 一 个 16 bit 的 类 型 字段 ， 它 标识 这 个 帧 


所 携带 的 数据 的 格式 。 对 于 IP 分 组 ， 类 型 是 0x0800(2048)。 帧 的 最 后 是 一 个 32 bit 的 CRC( 循 环 


见 余 检验 )， 


它 用 来 检查 帧 中 的 差错 。 


我 们 所 讨论 的 最 初 的 以 太 网 组 帧 的 标准 在 1982 年 由 Digital 设 备 公 司 、Intel 公 司 及 苑 


乐 公 司 发 布 ， 并 作为 今天 在 TCP/IP 网 络 中 最 党 用 的 格式 。 另 一 个 可 选 的 格式 是 IEEE( 电 
气 电子 工程 师 协会 ) 规 定 的 802.2 和 802.3 标 准 。 更 多 的 IEEE 标 准 详 见 [Stallings 1987], 
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对 于 以 太 网 ，IP 分 组 的 封装 由 RFC 894[Hornig 1984] 规 定 ， 而 对 于 802.3 网 ， 却 由 
RFC1042[Postel 和 Reynolds 1988] 规 定 。 


我 们 用 48 bit 的 以 太 网 地 址 作为 硬件 地 址 。IP 地 址 到 硬件 地 址 之 则 的 转换 用 ARP 协 议 (RFC 
826 [Plummer 1982])， 这 个 协议 在 第 21 章 讨论 。 而 硬件 地 址 到 IP 地 址 的 转换 用 RARP 协 议 (RFC 
903 [Finlayson et al. 1984])。 以 太 网 地 址 有 两 种 类 型 : 单 播 和 多 播 。 一 个 单 播 地 址 拉 述 一 个 单 
一 的 以 太 网 接口 ， 而 一 个 多 播 地 址 描述 一 组 以 太 网 接口 。 一 个 以 太 网 广播 是 一 个 所 有 接口 都 
接收 的 多 播 。 以 太 网 单 播 地 址 由 设备 的 厂商 分 配 ， 也 有 一 些 设备 的 地 址 允许 用 软件 改变 。 

一 些 DECNET 协 议 要 求 标 识 一 个 多 接口 主机 的 硬件 地 址 ， 因 此 DECNET 必 须 能 
改变 一 个 设备 的 以 太 网 单 播 地 址 。 

图 4-9 列 举 了 以 太 网 接口 的 数据 结构 和 函数 。 


if output 
OSI ARP 协 议 


le softc[0]: 


| ee 


输入 分 组 输出 分 组 
中 断 


图 4-9 以 太 网 设备 驱动 程序 


在 图 中 ， 用 一 个 椭圆 标识 一 个 函数 (leintr)， 用 一 个 方 框 标 识 数据 结构 

(le softc[01), le softc, A B Á 1E 437A — 48 s IK (ARP AD), 

图 4-9 左 上 角 显 示 的 是 OSI 无 连接 网 络 层 (cln1) 协 议 、IP 和 ARP 的 输入 队列 。 对 于 
clnlintrq, 我 们 不 打算 讲 更 多 ， 将 它 包含 进来 是 为 了 强调 ether_input 要 将 以 太 网 帧 分 
用 到 多 个 协议 队列 中 。 ; 

在 技术 上 ，OSI 使 用 无 连接 网 络 协议 (CLNP 而 不 是 CLNL)， 但 我 们 使 用 的 是 Net/3 

中 的 术语 。CLNP 的 官方 标准 是 ISO 8473。[Stallings 1993] 对 这 个 标准 做 了 概述 。 
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接口 结构 le_softc 在 图 4-9 的 中 间 。 我 们 感 兴趣 的 是 这 个 结构 中 的 ifnet 和 arpcom,， 
其 他 是 LANCE 硬 件 的 专用 部 分 。 我 们 在 图 3-6 中 显示 了 结构 ifnet ， 在 图 3-26 中 显示 了 结构 


arpcom, 
4.3.1 leintrtEZi 


我 们 从 以 太 网 帆 的 接收 开始 。 现 在 ,假设 硬 件 已 初始 化 并 且 系 统 已 完成 配置 ， 当 接口 产生 
一 个 中 断 时 ，leintr 被 调用 。 在 正常 操作 中 ， 一 个 以 太 网 接口 接收 发 送 到 它 的 单 播 地 址 和 以 
太 网 广播 地 址 的 帧 。 当 一 个 完整 的 帧 可 用 时 ， 接 口 就 产生 一 个 中 断 ， 并 且 内 核 调 用 leintz。 

在 第 12 章 中 ， 我 们 会 看 见 可 能 要 配置 多 个 以 太 网 接口 来 接收 以 太 网 多 播 帧 (不 同 

于 广播 )。 

有 些 接口 可 以 配置 为 运行 在 混杂 方式 。 在 这 种 方式 下 ， 接 口 接收 所 有 出 现在 网 

络 上 的 帧 。 在 卷 1 中 讨论 的 cpdump 程 序 可 以 使 用 BPF (BSD 分 组 过 滤 程 序 ) 来 利用 这 

种 特性 。 


leintz 检 测 硬件 ， 并 且 如 果 有 一 个 帧 到 达 ， 就 调用 lereadqa 把 这 个 帧 从 接口 转移 到 一 个 
mbuf 链 中 (用 m_devget)。 如 果 硬 件 报告 一 个 帧 已 传输 完 或 发 现 一 个 差错 (如 一 个 有 错误 的 检 
验 和 )， 则 1einttz 更 新 相应 的 接口 统计 ， 复 位 这 个 硬件 ， 并 调用 lestazt 来 传输 另 一 个 帧 。 

所 有 以 太 网 设备 驱动 程序 将 它们 接收 到 的 帧 传 给 ethez_input 做 进一步 的 处 理 。 设 备 驱 
动 程序 构造 的 mbuf 链 不 包括 以 太 网 首部 ， 以 太 网 首部 作为 一 个 独立 的 参数 传递 给 
ether input, £ibEJether header 显 示 在 图 4-10 中 。 

38-42 以 太 网 CRC 并 不 总 是 可 用 。 它 由 接口 硬件 来 计算 与 检验 ， 接 口 硬件 丢弃 到 达 的 CRC 
差错 帧 。 以 太 网 设备 驱动 程序 负 贡 ether_type 的 网 络 和 主机 字 市 序 间 的 转换 。 在 驱动 程序 
外 ， 它 总 是 主机 字 节 序 。 


if ether.h 
38 struct ether header ( 
39 u_char ether dhost[6]; /* Ethernet destination address */ 
40 u_char ether shost[6]; /* Ethernet source address */ 
41 u short ether type; /* Ethernet frame type */ 
42 ) : 
if ether.h 


图 4-10 结构 ether header 


4.3.2 leread ži 


图 数 1ezead( 图 4-11) 的 开始 是 由 Leintz 传 给 它 的 一 个 连续 的 内 存 缓冲 区 ， 并 且 构 造 了 
一 个 ether_header 结 构 和 一 个 mbuf 链 。 这 个 链表 存储 来 自 以 太 网 帧 的 数据 。leread 还 将 
输入 帧 传 给 BPF。 


if le.c 
528 leread(unit, buf, len) 
529 int unit; 
530 char *but; 
534. int len; 
532 ( 
533 struct le softc *le - &le softc[unit]; 


图 4-11 Kğrtleread 
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534 struct ether header *et; 

535 struct mbuf *m; 

536 int off, resid, flags; 

537 le-»sc if.if ipackets-**; 

538 et - (struct ether header *) buf; 

539 et-»ether type = ntohs((u short) et-»ether type); 

540 /* adjust input length to account for header and CRC */ 

541 len = len - sizeof(struct ether header) - 4; 

542 off = 0; 

543 i£ (len «- 0) { 

544 if (ledebug) 

545 log(LOG WARNING, 

546 "le&d: ierror(runt packet): from $s: len=%d\n", 
547 unit, ether sprintf(et-»ether shost), len); 

548 le-»sc runt-t-*; 

549 le-»sc if.if ierrors-*-*; 

550 return; 

551 } 

552 flags = 0; 

553 if (bcmp((caddr t) etherbroadcastaddr, 

554 (caddr t) et->ether_dhost, sizeof(etherbroadcastaddr)) == 0) 
555 flags |= M_BCAST; 

556 if (et-»ether dhost[0] & 1) 

557 flags |= M MCAST; 

558 P 

559 * Check if there's a bpf filter listening on this interface. 
560 * If so, hand off the raw packet to enet. 

561 * 7 

562 if (le-»sc if.if bpf) ( 

563 bpf tap(le-»sc if.if bpf, buf, len + sizeof(struct ether header)); 
564 /* 

565 * Keep the packet if it's a broadcast or has our 

566 * physical ethernet address (or if we support 

567 * multicast and it's one). 

568 ^ 

569 if ((flags & (M BCAST | M MCAST)) -- 0 && 

570 bcmp(et-»ether dhost, le-»sc addr, 

571 sizeof(et-»-ether dhost)) != 0) 

572 return; 

573 } 

574 /* 

575 * Pull packet off interface. Off is nonzero if packet 

576 * has trailing header; m devget will then force this header 
577 * information to be at the front, but we still have to drop 
578 * the type and length which are at the front of any trailer data. 
579 */ 

580 m = m devget((char *) (et + 1), len, off, &le-»sc if, 0); 
581 if (m == 0) 

582 return; 

583 m-»m flags |- flags; 

584 ether input(&le-»sc if, et, m); 

585 } 





if le.c 
图 4-11 (£3) 


528-539 国 数 1einttr 给 1eread 传 了 三 个 参数 : unit ， 它 标识 接收 到 此 帧 的 特定 接口 
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R; buf， 它 指向 接收 到 的 帧 ，1en， 它 是 帧 的 字 节 数 (包括 首部 和 CRC)。 

函数 将 et 指向 这 个 缓存 的 开始 ， 并 且 将 以 太 网 字 市 序 转换 成 主机 字 市 序 ， 来 构造 结构 
ether header, 
540-551 将 len 减 去 以 太 网 首部 和 CRC 的 大 小 得 到 数据 的 字 市 数 。 短 分 组 (runt packet) Zi — 
个 长 度 太 短 的 非法 以 太 网 帧 ， 它 被 记录 、 统 计 ， 并 被 丢弃 。 
552-557 接 下 来 ， 目 标 地 址 被 检测 ， 并 判断 是 不 是 以 太 网 广播 或 多 播 地 址 。 以 太 网 广播 地 
址 是 一 个 以 太 网 多 播 地 址 的 特例 ， 它 的 每 一 比特 都 被 设置 了 。etherbroadcastaddr 是 一 
个 数组 ， 定 义 如 下 : 


u char etherbroadcastaddr [6] = { Oxff, Oxtf, Oxff, Oxff, Oxft, Oxft }; 


这 是 C 语 言 中 定义 一 个 48 bit 值 的 简便 方法 。 这 项 技术 仅 在 我 们 假设 字符 是 8 bit 





bcmp 比 较 etherbroadcastaddr 和 ether dhost, 若 相 同 ， 则 设置 标志 M BCAST, 
一 个 以 太 了 网 多 播 地 址 由 这 个 地 址 的 首 字 节 的 低位 比特 来 标识 ， 如 图 4-12 所 示 。 
15 16 23 24 3132 39 40 


ether dhost[] PRIE EFFET VIC PUR OAA RAE PERA 
"S 48 bit 以 大 网 地 址 
标识 以 太 网 多 播 地 址 


图 4-12 检测 一 个 以 太 网 多 播 地 址 


在 第 12 章 中 ， 我 们 会 看 到 并 不 是 所 有 以 太 网 多 播 帆 都 是 IP 多 播 数据 报 ， 并 且 IP 必 须 进 一 
步 检测 这 个 分 组 。 

如 采 这 个 地 址 的 多 播 比特 被 置 位 ， 在 mbuf 首 部 中 设置 M_MCRST。 检 测 的 顺序 是 重要 的 : 
首先 ethez_input 将 整个 48 bit 地 址 和 以 太 网 广播 地 址 比较 ， 大 不同 ， 则 检测 标识 以 太 了 网 多 
播 地 址 的 首 字 市 的 低位 比特 (习题 4.1)。 

558-573 如 采 接 口 带 有 BPF， 调 用 bpf_tap 把 这 个 帧 直接 传 给 BPF。 我 们 会 看 见 对 于 SLIP 
和 环 回 接口 ， 要 构造 一 个 特定 的 BPF 帧 ， 因 为 这 些 网 络 没 有 一 个 链 路 层 首 部 (不 像 以 太 网 )。 

当 一 个 接口 囊 有 BPF 时 ， 它 可 以 配置 为 运行 在 混 靖 模式 ， 并 且 接 收 网 络 上 出 现 的 所 有 以 太 

网 帧 ， 而 不 是 通常 由 硬件 接收 的 帧 的 子 集 。 如 果 分 组 发 送 给 一 个 不 与 此 接口 地 址 匹配 的 单 播 
地 址 ， 则 被 1ereaqa 丢 弃 。 
574-585 m devget (2.6 市 ) 将 数据 从 传 给 leread 的 缓存 中 复制 到 一 个 它 分 配 的 mbuf 链 中 。 
传 给 m_devget 的 第 一 个 参数 指向 以 太 网 首部 后 的 第 一 个 字 节 ， 它 是 此 帧 中 的 第 一 个 数据 字 
万。 如 果 m_aqaevget 内 存 用 完 ，Lezead 立 即 返 回 。 另 外 广播 和 多 播 标志 被 设置 在 链表 中 的 第 
—^*mbufrH, ether input 处 理 这 个 分 组 。 


4.3.3 ether input 函数 


畏 数 ether_input 显 示 在 图 4-13 中 ， 它 检查 结构 ethe 上 r_headez 来 判断 接收 到 的 数据 
的 类 型 ， 并 将 接收 到 的 分 组 加 入 队列 中 等 待 处 理 。 

1. 广播 和 多 播 的 识别 
196-209 传 给 ether input 的 参数 有 : ifp, 一 个 指向 接收 此 分 组 的 接口 的 ifnet 结 构 
的 指针 ，eh， 一 个 指向 接收 分 组 的 以 太 网 首部 的 指针 ，m， 一 个 指向 接收 分 组 的 指针 (不 包括 
以 太 网 首部 )。 
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任何 到 达 不 工作 接口 的 分 组 将 被 丢弃 。 可 能 没有 为 接口 配置 一 个 协议 地 址 ， 或 者 接口 可 
能 被 程序 ifconfig (8) (6.6 节 ) 显 式 地 禁用 了 。 





if ethersubr.c 
196 void 
197 ether input(ifp, eh, m) 
198 struct ifnet *ifp; 
199 struct ether header *eh; 
200 struct mbuf *m; 
401 { 
202 struct ifqueue *inq; 
203 struct lloc *1; 
204 struct arpcom *ac - (struct arpcom *) ifp; 
205 int S; 
206 if ((ifp-»if.flags & IFF UP) == 0) ( 
207 m freem(m); 
208 return; 
209 ) 
210 ifp-»if lastchange = time; 
211 ifp-»if ibytes += m-»m pkthdr.len + sizeof(*eh); 
212 if (bcmp((caddr t) etherbroadcastaddr, (caddr t) eh-»ether dhost, 
213 sizeof(etherbroadcastaddr)) -- 0) 
214 m-»m flags |- M,BCAST; 
215 else if (eh-»ether, dhost(0] & 1) 
216 m-»m flags |= M MCAST; 
217 if (m-»m flags & (M BCAST | M MCAST)) 
218 ifp-»if imcasts-«-; 
219 switch (eh-»ether type) ( 
220 case ETHERTYPE IP: 
221 schednetisr(NETISR IP); 
222 inq - &ipintrq; 
223 break; 
224 case ETHERTYPE ARP: 
225 schednetisr(NETISR, ARP); 
226 inq = &arpintrq; 
221 break; 
228 default: 
229 if (eh-»ether type » ETHERMTU) ( 
230 m freem(m); 
441 return; 
232 ) 
307 ) 
308 S = Splimp(); 
309 if (IF QFULL(inq)) ( 
310 IF, DROP(inq); 
Xo d m freem (m); 
312 ) else 
313 IF ENQUEUE(inq, m): 
314 Splxí(s); 
315 } 





if ethersubr.c 


图 4-13 国 数 ether_ input 
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210-218 ”变量 time 是 一 个 全 局 的 timeval 结 构 ， 内 核 用 它 维护 当前 时 间 和 日 期 ， 它 是 从 
Unix 新 纪元 (1970 年 1 月 1 日 00:00:00， 协 调 通 用 时 间 [UTC]) 开 始 的 秒 和 微 秒 数 。 在 [Itano and 
Ramsey 1993] 中 可 以 找到 对 UTC 的 简要 讨论 。 我 们 在 Net/3 源 代码 中 会 经 常 遇 到 结构 timeval: 
struct timeval ( 
long tv sec; /* seconds */ 
long tv usec; /* and microseconds */ 
ij 
ether _input 用 当前 时 间 更 新 jf _lastchange,， 并 且 把 if ibytes 加 上 输入 分 组 的 
长 度 (分 组 长 度 加 上 14 字 节 的 以 太 网 首部 )。 
然后 ，ether_input 再 次 用 leread 去 判断 分 组 是 否 为 一 个 广播 或 多 播 分 组 。 
有 些 内 核 编译 时 可 能 没有 包括 BPF 人 代码， 因此 测试 必须 在 ether input? 
2. 链 路 层 分 用 
219-227 ether input 根 据 以 太 网 类 型 字段 来 跳 转 。 对 于 一 个 IP 分 组 ，schednetisr 
调度 一 个 IP 软 件 中 断 ， 并 选择 IP 输 入 队列 ，ipintrq。 对 于 一 个 ARP 分 组 ， 调 度 ARP 软 件 中 
断 ， 并 选择 arpintrq。 


一 个 isr 是 一 个 中 断 服务 例 程 。 

在 原先 的 BSD 版 本 中 ， 当 处 于 网 络 中 断 级 别 时 ，ARP 分 组 通过 调用 arpinput 立 
即 被 处 理 。 通 过 分 组 排 了 从， 它们 可 以 在 软件 中 断 级 别 被 处 理 。 

如 果 要 处 理 其 他 以 太 网 类 型 ， 一 个 内 核 程 序 员 应 在 此 增加 其 他 情况 的 处 理 。 或 
者 ， 一 个 进程 能 用 BPF 接 收 其 他 以 太 网 类 型 。 例 如 ， 在 Net/3 中 ，RARP 服 务 通常 用 
BPF 实 现 。 


228-307 默认 情况 处 理 不 识别 以 太 网 类 型 或 按 802.3 
标准 (例如 OSI 无 连接 传输 ) 封 装 的 分 组 。 以 太 网 的 type 


0~1500 IEEE 802.3 length*E Et 





字段 和 802.3 的 length 字 段 在 一 个 以 太 网 帧 中 占用 同一 | 1501-65535 | pLWiperB. 
位 置 。 两 种 封装 能 够 分 辨 出 来 ， 因 为 一 个 以 太 网 封装 | 2048 IP 分 组 

的 类 型 范围 和 802.3 封 装 的 长 度 范围 是 不 同 的 (图 4-14)。 | ?09 MERA 

我 们 跳 过 OSI 代码 ， 在 [Stallings 1993] 中 有 对 OSI 链 路 图 4-14 以 太 网 的 type 字 段 和 
层 协议 的 说 明 。 802.34length F Ft 


有 很 多 其 他 以 太 网 类 型 值 分 配给 各 种 协议 ; 我 们 没有 在 图 4-14 中 显示 。 在 RFC 
1700 [Reynolds and Postel 1994] 中 有 一 个 有 更 多 通用 类 型 的 列表 。 


3. 分 组 排队 
308-315 最 后 ，ether_input 把 分 组 放置 到 选择 的 队列 中 ， 若 队列 为 空 ， 则 丢弃 此 分 组 。 
我 们 在 图 7-23 和 图 21-16 中 会 看 到 IP 和 ARP 队 列 的 默认 限制 为 每 个 50 个 (ijpqmaxlen) 分 组 。 

当 ethezr_input 返 回 时 ， 设 备 驱动 程序 通知 硬件 它 已 准备 接收 下 一 分 组 ， 这 时 下 一 分 组 
可 能 已 存在 于 设备 中 。 当 schednetisr 调 度 的 软件 中 断 发 生 时 ， 处 理 分 组 输入 队列 (1.12 节 )。 
准确 地 说 ， 调 用 ipintr 来 处 理 IP 输 入 队列 中 的 分 组 ， 调 用 arpintr 来 处 理 ARP 输 入 队列 中 
的 分 组 。 
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4.3.4 ether output Zi 


我 们 现在 查看 以 太 网 帧 的 输出 ， 当 一 个 网 络 层 协议 ， 如 IP， 调 用 此 接口 itnet 结 构 中 指定 
的 函数 if_output 时 ， 开 始 处 理 输出 。 所 有 以 太 网 设备 的 if_output 和 是 ether_outPut 
(图 4-2)。ether_output 用 14 字 节 以 太 网 首部 封装 一 个 以 太 网 帧 的 数据 部 分 ， 并 将 它 放 置 到 
接口 的 发 送 队 列 中 。 这 个 函数 比较 大 ， 我 们 分 4 个 部 分 来 说 明 : 


* 验证; 
。 特定 协议 处 理 ， 
* 3438 Wii s 
。 接 口 排队 。 
图 4-15 包 括 这 个 函数 的 第 一 个 部 分 。 
if ethersubr.c 
49 int 
50 ether output(ifp, m0, dst, rt0) 
51 struct ifnet *ifp; 
52 struct mbuf *m0; 
53 struct sockaddr *dst; 
54 struct rtentry *rt0; 
55 1 
56 short type; 
57 int s, error = 0; 
58 u_char edst[6]; 
59 struct mbuf *m = m0; 
60 struct rtentry *rt; 
61 struct mbuf *mcopy = (struct mbuf *) 0; 
62 struct ether header *eh; 
63 int off, len - m-»m pkthdr.len; 
64 struct arpcom *ac - (struct arpcom *) ifp; 
65 if ((ifp-»if flags & (IFF UP | IFF RUNNING)) !- (IFF UP | IFF RUNNING) ) 
66 senderr (ENETDOWN); 
67 ifp-»if lastchange = time; 
68 if (rt = rt0) f 
69 if ((rt-»rt flags & RTF UP) == 0) { 
70 if (rtO = rt = rtalloci(dst, 1)) 
TE rt-»rt refcnt--; 
72 else 
73 senderr (EHOSTUNREACH) ; 
74 ) 
75 if (rt-»rt flags & RTF GATEWAY) ( 
76 if (rt-»rt gwroute == 0) 
77 goto lookup; 
78 if (((rt = rt-»rt gwroute)-»rt flags & RTF UP) -- 0) ( 
79 rtfree(rt); 
80 rt = rt0; 
81 lookup: rt-»rt gwroute = rtallocl(rt-»rt gateway, 1); 
82 if ((rt = rt-»rt gwroute) == 0) 
83 senderr (EHOSTUNREACH) ; 
84 ) 
85 ) 
86 if (rt-»rt flags & RTF. REJECT) 
87 if (rt-»rt rmx.rmx expire -- 0 || 
88 time.tv sec « rt-»rt rmx.rmx expire) 
89 senderr(rt == rtO0 ? EHOSTDOWN : EHOSTUNREACH); 
90 ) if ethersubr.c 


图 4-15 函数 ether output: 验证 


49-64 ether outputHÜ)Z AU H: ifp， 它 指向 输出 接口 的 jfnet 结 构 ，m0， 要 发 送 的 分 
组 ，dst, 分 组 的 目标 地 址 ，rt0， 路 由 信息 。 
65-67 在 ether output 中 多 次 调用 宏 senderr。 


#define senderr(e) { error = (e); goto bad;) 
senderL 保 存 差错 码 ， 并 跳 到 函数 的 尾部 bad， 在 那里 分 组 被 丢弃 ， 并 且 ethezr_ 
outputjh|[slerror, 


如 果 接 口 启动 并 在 运行 ，ether_output 更 新 接口 的 上 次 更 改 时间 。 否 则 ， 返 回 
ENETDOWN, 

1. 主机 路 由 
68-74 rt0 指 同 ip_output 找 到 的 路 由 项 ， 并 传递 给 ether output。 如 果 从 BPF 调 用 
ether_output，rt0 可 以 为 空 。 在 这 种 情况 下 ， 控 制 转 给 图 4-16 中 的 代码 。 否 则 ， 验 证 路 
由 。 如 果 路 由 无 效 ， 参 考 路 由 表 ， 并 且 当 路 由 不 能 被 找到 时 ， 返 回 EHOSTUNREACH。 这 时 ， 
rt0 和 rt 指 癌 一 个 到 下 一 跳 目 的 地 的 有 效 路 由 。 





. if ethersubr.c 
91 switch (dst-»sa family) ( 
92 case AF, INET: 
93 if (!arpresolve(ac, rt, m, dst, edst)) 
94 return (0); /* if not yet resolved */ 
95 /* If broadcasting on a simplex interface, loopback a copy */ 
96 if ((m-»m flags & M BCAST) && (ifp-»if flags & IFF SIMPLEX)) 
97 mcopy = m copy(m, 0, (int) M COPYALD); 
98 off - m-»m pkthdr.len - m-»m len; 
99 type - ETHERTYPE IP; 
100 break; 
101 case AF ISO: 
/* ogi code */ 0 $1 
ius idu rr uer 
142 case AF UNSPEC: 
143 eh = (struct ether header *) dst-»sa data; 
144 bcopy((caddr t) eh-»ether dhost, (caddr t) edst, sizeof(edst)); 
145 type - eh-»ether type; 
146 break; 
147 default: 
148 printf("$s$€d: can't handle af$dWMn", ifp-»if name, ifp-»if unit, 
149 dst-»sa family); 
150 senderr (EAFNOSUPPORT); 
151 ) 


if ethersubr.c 
图 4-16 函数 ether output: 网 络 协议 处 理 


2. 网 关 路 由 
75-85 如 采 分 组 的 下 一 跳 是 一 个 网 关 ( 而 不 是 最 终 目的 )， 找 到 一 个 到 此 网 关 的 路 由 ， 并 且 
rt 指向 它 。 如 果 不 能 发 现 一 个 网 关 路 由 ， 则 返回 EHOSTUNREACH。 这 时 ，rt 指 向 下 一 跳 目 
的 地 的 路 由 。 下 一 跳 可 能 是 一 个 网 关 或 最 终 目 标 地 址 。 

3. 避免 ARP 泛 洪 
86-90 当 目 标 方 不 准备 啊 应 ARP 请 求 时 ，ARP 代 码 设 置 标志 RTF_REJECT 来 丢弃 到 达 目 标 
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方 的 分 组 。 这 在 图 21-24 中 拉 述 。 | 

ether_output 根 据 此 分 组 的 目标 地 址 继续 处 理 。 因 为 以 太 网 设备 仅 啊 应 以 太 网 地 址 ， 
要 发 送 一 个 分 组 ，ether_output 必 须发 现下 一 跳 目 的 地 的 IP 地 址 所 对 应 的 以 太 网 地 址 。 
ARP 协 议 ( 第 21 章 ) 用 来 实现 这 个 转换 。 图 4-16 显 示 了 驱动 程序 是 如 何 访问 ARP 协 议 的 。 

4. IP 输 出 
91-101 ether_output 根 据 目 标 地 址 中 的 sa_family 进 行 跳 转 。 我 们 在 图 4-16 中 仅 显 示 
了 case 为 AF INET, AF ISO 和 AF_UNSPEC 的 代码 ， 而 略 过 了 case AF_ISO 的 代码 。 

case AF INET 调 用 arpresolve 来 决定 与 目标 IP 地 址 相对 应 的 以 太 网 地 址 。 如 采 以 太 网 
地 址 已 存在 于 ARP 高 速 缓存 中 ， 则 azrpresolve 返 回 1， 并 且 ethezr_output 继 续 执 行 。 人 否 
则 ， 这 个 IP 分 组 由 ARP 控 制 ， 并 且 ARP 判 断 地 址 ， 从 函数 in_arpinput 调 用 
ether output, 

假设 ARP 高 速 缓存 包含 硬件 地 址 ，ether_output 检 查 是 否 分 组 要 广播 ， 并 且 接 口 是 否 
是 单 向 的 (例如 ， 它 不 能 接收 自己 发 送 的 分 组 )。 如 果 都 成 立 ， 则 m_copy 复 制 这 个 分 组 。 在 执 
行 switch 后 , 这 个 复制 的 分 组 同 到 达 以 太 网 接口 的 分 组 一 样 进行 排队 。 这 是 广播 定义 的 要 求 ， 
发 送 主 机 必须 接收 这 个 分 组 的 一 个 备份 。 

我 们 在 第 12 章 会 看 到 多 播 分 组 可 能 会 环 回 到 输出 接口 而 被 接收 。 

5. 显 式 以 太 网 输出 
142-146 有些 协议 ， 如 ARP， 需 要 显 式 地 指定 以 太 网 目的 地 和 类 型 。 地 址 族 类 第 量 
AF UNSPEC 指 出 : dst 指 向 一 个 以 太 网 首部 。bcopy 复 制 edst 中 的 目标 地 址 ， 并 把 以 太 网 
类 型 设 为 Ltype。 它 不 必 调 用 arpresolve (如 AF_INET)， 因 为 以 太 网 目标 地 址 已 由 调用 者 
显 式 地 提供 了 。 

6. 未 识别 的 地 址 族 类 
147-151 未 识别 的 地 址 族 类 产生 一 个 控制 台 销 息 ， 并 且 ethezr_output 返 回 EAFNOSUPPORT。 

图 4-17 所 示 的 是 ether_output 的 下 一 部 分 : 构造 以 太 网 帧 。 


if_ethersubr.c 
152 if (mcopy) 
153 (void) looutput(ifp, mcopy, dst, rt); 
154 [* 
155 * Add local net header. If no space in first mbuf, 
156 * allocate another. 
157 "d 
158 M PREPEND(m, sizeof(struct ether header), M DONTWAIT); 
159 if (m == 0) 
160 senderr (ENOBUFS); 
161 eh - mtod(m, struct ether header *); 
162 type - htons((u short) type); 
163 bcopy((caddr t) &type, (caddr t) &eh-»ether type, 
164 sizeof(eh-»ether type)); 
165 bcopy((caddr t)edst, (caddr t)eh-»ether dhost, sizeof (edst)); 
166 bcopy((caddr t)ac-»ac enaddr, (caddr t)eh-»ether shost, 
167 sizeof(eh-»ether shost)); 
xui C MC C C CC CL E s 
4-17 函数 ether output: fJiELA Whi 
7. 以 太 网 首部 


152-167 如 果 在 switch 中 的 代码 复制 了 这 个 分 组 ， 这 个 分 组 副本 同 在 输出 接口 上 接收 到 
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的 分 组 一 样 通过 调用 Looutput 来 处 理 。 环 回 接 口 和 Looutput 在 5.4 节 讨论 。 
M_PREPEND 确 保 在 分 组 的 前 面 有 14 字 节 的 空间 。 


大 多 数 协议 要 在 mbuf 链 表 的 前 面 留 一 些 空 间 ， 因 此 ，M_PREPEND 仅 需要 调整 一 


些 指针 (例如 ，16.7 节 中 UDP 输出 的 sosend 和 13.6 节 的 igmp sendreport), 


ether output/type, edstfeac enaddr( 图 3-26) 构 成 以 太 网 首部 。 


ac_enaddr 是 与 此 输出 接口 关联 的 以 太 网 单 播 地 址 ， 并 且 是 所 有 从 此 接口 传输 的 帧 
的 源 地 址 。ether header 用 ac _ enaddr 重 写 调用 者 可 能 在 ether header 结构 
中 指定 的 源 地 址 。 这 使 得 伪造 一 个 以 太 网 帧 的 源 地 址 变 得 更 难 。 


这 时 ，mbuf 包 含 一 个 除 32 bit CRC 以 外 的 完整 以 太 网 帧 ，CRC 由 以 太 网 硬件 在 传输 时 计 
算 。 图 4-18 所 示 的 代码 对 设备 要 传送 的 帧 进行 排队 。 


168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 


186 
187 
188 
189 
199 j 


bad: 


if ethersubr.c 
s - splimp(); 
Fi * 
* Queue message on interface, and start output if interface 
* not yet active. 
"7 
if (IF QFULL(&ifp-»if snd)) ( 
IF DROP(&ifp-»if snd); 
splx(s); 
senderr (ENOBUFS); 
) 
IF ENQUEUE(&ifp-»if snd, m); 
if ((ifp-»if flags & IFF OACTIVE) == 0) 
(*ifp-»if start) (ifp); 
splx(s); 
ifp-»if obytes += len + sizeof(struct ether header); 
if (m-»m flags & M MCAST) 
ifp-»if omcasts-*-*; 
return (error); 
if (m) 
m freem(m); 
return (error); 
if ethersubr.c 


图 4-18 函数 ether output: : 输出 排队 


168-185 如果 输出 队列 为 空 ，ether_output 丢 弃 此 帧 ， 并 返回 ENOBUEFS 。 如 果 输 出 队 
列 不 为 空 ， 这 个 帧 放置 到 接口 的 发 送 队 列 中 ， 并 且 若 接口 未 激活 ， 接 口 的 if_stazrt 国 数 传 


输 下 一 帧 。 


186-190 宏 sendqerLz 跳 到 bad， 在 这 里 帧 被 丢弃 ， 并 返回 一 个 差错 码 。 
4.3.5 lestartžı 


国 数 1estatzt 从 接口 输出 队列 中 取出 排队 的 帧 ， 并 交 给 LANCE 以 太 网 卡 发 送 。 如 果 设 备 
空 亲 ， 调 用 此 国 数 开始 发 送 帧 。ether_output( 图 4-18) 的 最 后 是 一 个 例子 ， 直 接 通 过 接口 
的 if_statt 国 数 调 用 lestart。 | 

如 果 设 备 忙 ， 当 它 完成 了 当前 帧 的 传输 时 产生 一 个 中 断 。 设 备 调用 lestart 来 退 队 并 传 
输 下 一 帧 。 一 旦 开始 ， 协 议 层 不 再 用 调用 lestaxtrt 来 排队 帧 ， 因 为 驱动 程序 不 断 退 队 并 传输 


88 TCP/IPzEÉ& %2: 实现 


帧 ， 直 到 队列 为 空 为 止 。 | 
图 4-19 所 示 的 是 函数 1estazt。1lestazrt 假 设 已 调用 sp1imp 来 阻塞 所 有 设备 中 断 。 


if le.c 
325 lestart (ifp) if. 
326 struct ifnet *ifp; 











327 4 
328 struct le softc *le = &le softc[ifp-»if unit]; 
329 struct letmd *tmd; 
330 struct mbuf *m; 
331 int len; 
332 if ((le-»sc if.if flags & IFF RUNNING) == 0) 
333 return (0); 
335 do ( 
340 IF DEQUEUE(&le-»sc if.if snd, m); 
341 if (m == 0) 
342 return (0); 
343 len = leput(le-»sc r2-»1ler2 tbuf[le-»sc tmd], m); 
344 y" 
345 * If bpf is listening on this interface, let it 
346 * see the packet before we commit it to the wire. 
347 ud 
348 if (ifp-»if bpf) 
349 bpf tap(ifp-»if bpf, le-»sc r2-»ler2 tbuf[le-»sc tmd], 
350 len); 
359 ) while (*«1le-»sc txcnt < LETBUF); 
360 le-»sc if.if flags |= IFF. OACTIVE; 
361 return (0); 
362 ) : 
if le.c 
[4-19 畏 数 lestatt 
1. 接口 必须 初始 化 
325-333 如果 接 口 没有 初始 化 ，lestart 立 即 返 回 。 
2. 将 帧 从 输出 队列 中 退 队 
335-342 如 果 接 口 已 初始 化 ， 下 一 帧 从 队列 中 移 去 。 如 果 接 口 输出 队列 为 空 ， 则 lestaxt 
Js [B] 
3. 传输 帧 并 传递 给 BPF 


343-350 leput 将 m 中 的 帧 复制 到 Leput 第 一 个 参数 所 指向 的 硬件 缓存 中 。 如 果 接 口 带 有 
BPF， 将 帧 传 给 bpf tap。 我 们 跳 过 硬件 缓存 中 帧 传输 的 设备 专用 初始 化 代码 。 
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4. 如 果 设 备 准备 好 ， 重 复发 送 多 帧 
359 当 le->sc_txcnt 等 于 LETBUF 时 ，1lestazrt 停 止 给 设备 传送 帧 。 有 些 以 太 网 接口 能 
排队 多 个 以 太 网 输出 帧 。 对 于 LANCE 驱 动 器 ，LETBUEF 是 此 驱动 器 硬件 传输 缓存 的 可 用 个 数 ， 
并 且 le->sc_txcnt 保 持 跟踪 有 多 少 个 缓存 被 使 用 。 
S. 将 设备 标记 为 忙 
360-362 最 后 ，lestart 在 ifnet 结 构 中 设置 IFF OACTIVE 来 标识 这 个 设备 忙于 传输 帧 。 
在 设备 中 将 多 个 要 传输 的 帧 进行 排队 有 一 个 负面 影响 。 根 据 [Jacobson 1998a], 
LANCE 臣 片 能 够 在 两 个 帧 间 以 很 小 的 时 廷 传输 排队 的 帧 。 不 幸 的 是 ， 有些 ( 差 的 ) 以 
太 网 设备 会 丢失 帧 ， 因 为 它们 不 能 足够 快 地 处 理 输入 的 数据 。 
在 一 个 应 用 如 NFS 中 ， 这 会 很 糟糕 地 互相 影响 。NFS 发 送 大 的 UDP 数据 报 (经 常 是 
超过 8192 字 节 )， 数 据 报 被 IP 分 片 ， 并 在 LANCE 设 备 中 作为 多 个 以 太 网 帧 排队 。 分 片 在 
接收 方 丢失 ， 当 NFS 重 传 整 个 UDP 数 据 报 时 ,会 导致 很 多 未 完成 的 数据 报 极 大 的 时 延 。 
Jacobson 提 出 Sun 的 LANCE 了 驱动 器 一 次 只 排队 一 个 帧 就 可 能 避免 这 一 问题 。 


4.4 ioct1 系 统 调用 


ioct1 系 统 调用 提供 一 个 通用 命令 接口 ， 一 个 进程 用 它 来 访问 一 个 设备 的 标准 系统 调用 
所 不 支持 的 特性 。ioct1 的 原型 为 : 

int ioctl(int fd, unsigned long com,:-::); 

tdiÉ—^ f XATE. 8E f ANARE. RPÓSCOUBUTRGAT AD E A GE 
ioct1 命 令 ， 这 套 命令 由 第 二 个 参数 com 来 指定 。 第 三 个 参数 在 原型 中 显示 为 “. . . ， 因 为 
它 是 依赖 于 被 调用 的 ioct1 命 令 的 类 型 的 指针 。 如 有 果 命 令 要 取 回 信息 ， 第 三 个 参数 必须 是 指 
癌 一 个 足够 保存 数据 的 缓存 的 指针 。 在 本 书 中 ， 我 们 仅 讨论 用 于 插口 描述 符 的 ioct1 命 令 。 

我 们 显示 的 系统 调用 的 原型 是 一 个 进程 进行 系统 调用 的 原型 。 在 第 15 章 中 我 们 

会 看 见 在 内 核 中 的 这 个 骂 数 还 有 一 个 不 同 的 原型 。 

我 们 在 第 17 章 讨论 系统 调用 ioct1 的 实现 ,但 在 本 书 的 各 个 部 分 讨论 ioct1l 单 个 命令 的 
实现 


我 们 讨论 的 第 一 个 ioct1 命 令 提供 对 讨论 过 的 网 络 接口 结构 的 访问 。 我 们 总 结 的 本 书 中 
所 有 的 ioct1 命 令 如 图 4-20 所 示 。 


SIOCGIFCONF struct ifconf * | ifconf 获取 接口 配置 清单 
SIOCGIFFLAGS struct ifreq * ifioctl 获得 接口 标志 


SIOCGIFMETRIC | struct ifreq * ifioeti 获得 接口 度量 
SIOCSIFFLAGS struct ifreq * ifioctl 设置 接口 标志 
SIOCSIFMETRIC | struct ifreq * ifioctl 设置 接口 度量 





图 4-20 接口 ioct1 的 命令 
第 一 列 显示 的 符号 稼 量 标识 ioct1 命 令 (第 二 个 参数 ，com)。 第 二 列 显示 传递 给 第 一 列 
所 显示 的 命令 的 系统 调用 的 第 三 个 参数 的 类 型 。 第 三 列 是 实现 这 个 命令 的 函数 的 名 称 。 
图 4-21 显 示 处 理 ijoct1l 命 令 的 各 种 函数 的 组 织 。 带 阴影 的 函数 我 们 在 本 章 中 说 明 。 其 余 
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的 函数 在 其 他 章 说 明 。 


LE C. fentl ^) C iori D 
"pe 





if ióctl 





图 4-21 在 本 章 说 明 的 ioct1 函 数 
4.4.1 ifioctl 函 数 


系统 调用 ioct1 将 图 4-20 所 列 的 5 种 命令 传递 给 图 4-22 所 示 的 ifioct1 国 数 。 

394-405 对 于 命令 SIOCGIFCONF，ifioct1l 调 用 ifconf 来 构造 一 个 可 变 长 i1freqgq 结 构 
的 表 。 

406-410 对 于 其 他 ioct1l 命 令 ， 数 据 参 数 是 指向 一 个 freq 结 构 的 指针 。ifunit 在 
ifnet 列 表 中 查找 名 称 为 进程 在 ijfr->ifr_name 中 提供 的 文本 名 称 (例如 :“s10”, "lei" 
或 “1o0”) 的 接口 。 如 果 没 有 匹配 的 接口 ，ifioct1 返 回 ENXIO。 剩 下 的 代码 依赖 于 cmda， 
它们 在 图 4-29 中 说 明 。 

447-454 如 果 接 口 ioct1 命 令 不 能 被 识别 ，ifioct1 把 命令 发 送 给 与 所 请 求 插口 关联 的 协 
议 的 用 户 要 求 国 数 。 对 于 IP， 这 些 命令 以 一 个 UDP 插口 发 送 并 调用 udap_usrreq。 这 一 类 命 
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令 在 图 6-10 中 描述 。23.10 节 将 详细 讨论 函数 udp_usrreq。 
如 果 控 制 到 达 switch 语 名 外 ， 返 回 0。 


394 int pe 
395 ifioctl(so, cmd, data, p) 

396 struct socket *so; 

397 int cmd; 

398 caddr. t data; 

399 struct proc *p; 





400 ( 

401 struct ifnet *ifp; 

402 struct ifreq *ifr; 

403 int error; 

404 if (cmd == SIOCGIFCONF) 

405 return (ifconf(cmd, data)); 
406 ifr - (struct ifreq *) data; 
407 ifp = ifunit(ifr-»ifr name); 
408 if (ifp ss D) 

409 return (ENXIO); 

410 switch (cmd) ( 





m.s deca 


447 default: 


448 if (so-»so, proto == 0) 

449 return (EOPNOTSUPP); 

450 return ((*so-»so, proto-»pr usrreq) (so, PRU. CONTROL, 
451 cmd, data, ifp)); 
452 ) 

453 return (0); 

454 ) 





if.c 


图 4-22 函数 ifioctl， 综述 与 SIOCGIFCONF 


4.4.2 ifconf Až 


ifconf 为 进程 提供 一 个 标准 的 方法 来 发 现 一 个 系统 中 的 接口 和 配置 的 地 址 。 由 结构 
ifreq 和 ifconf 表 示 的 接口 信息 如 图 4-23 和 图 4-24 所 示 。 
262-279 一 个 ifreq 结 构 包 含 在 ifr_name 中 一 个 接口 的 名 称 。 在 联合 中 的 其 他 成 员 被 各 
种 ioct1 命 令 访问 。 通 常 ， 用 宏 来 简化 对 联合 的 成 员 的 访问 语法 。 
292-300 在 结构 ifconf 中 ，ifc len 是 ifc_buf 指 向 的 缓存 的 字 节 数 。 这 个 缓存 由 一 个 
进程 分 配 ， 但 由 ifconf 用 一 个 具有 可 变 长 ifreq 结 构 的 数组 来 填充 。 对 于 函数 ifconf， 
ifr addr 是 结构 ifreq 中 联合 的 相关 成 员 。 每 个 i1freq 结 构 有 一 个 可 变 长 度 ， 因 为 
ifr_addr (一 个 sockaddr 结 构 ) 的 长 度 根据 地 址 的 类 型 而 变 。 必 须 用 结构 sockadqdr 的 成 员 
sa len 来 定位 每 项 的 结束 。 图 4-25 说 明了 ifconf 所 维护 的 数据 结构 。 

在 图 4-25 中 ， 左 边 的 数据 在 内 核 中 ， 而 右边 的 数据 在 一 个 进程 中 。 我 们 用 这 个 图 来 讨论 
图 4-26 中 所 示 的 ifEconf 国 数 。 | 
462-474 ifconf 的 两 个 参数 是 ，cmda， 它 被 忽略 ;， aata， 它 指向 此 进程 指定 的 ifconf 
结构 的 一 个 副本 。 
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262 
263 
264 
265 
266 
267 
268 
269 
270 
271 
272 
273 
274 
275 
276 
277 
278 
279 
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ifh 


struct ifreq { 


#define IFNAMSIZ 16 
char ifr name[IFNAMSIZ]; /* if name, e.g. "en0" */ 
union ( 
struct  sockaddr ifru addr; 
struct sockaddr ifru dstaddr; 
struct  sockaddr ifru broadaddr; 
short ifru flags; 
int ifru metric; 
caddr t ifru data; 
) ifr fr; 
define ifr addr ifr ifru.ifru, addr /* address */ 
#define ifr dstaddr ifr ifru.ifru, dstaddr /* other end of p-to-p link */ 
#define ifr broadaddr ifr ifru.ifru broadaddr /* broadcast address */ 
$define ifr flags ifr ifru.ifru flags /* flags */ 
d$define ifr metric ifr ifru.ifru metric /* metric */ 
#define ifr data ifr ifru.ifru, data /* for use by interface */ 
); 


if.h 


图 4-23 结构 ifred 


if.h 


292 struct  ifconf ( 

293 int ifc len; /* size of associated buffer */ 
294 union { 

295 caddr t ifcu buf; 

296 struct  ifreq *ifcu, req; 

297 ) ifc ifcu; 


298 $define ifc buf ifc ifcu.ifcu buf /* buffer address */ 
299 #define ifc req ifc ifcu.ifcu req /* array of structures returned */ 





















300 ); 
图 4-24 结构 ifconf 
ifc data (process) 
ifconf() ifconf() 
ifc buf 
| 
| 
ifrp Sockaddr in() 
sockaddr dl() 
ifreq() sockaddr in() 
ifr - 






sockaddr in() 


veo — |sockadár iso() 
sockadar 40) 


ep 





| 
| 
| 
| 
十 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


内 核 进程 


图 4-25 ifconf 数 据 结 构 
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4 
462 int si 


463 ifconf(cmd, data) 


464 int cmd; 

465 caddr t data; 

466 ( 

467 struct ifconf *ifc - (struct ifconf *) data; 

468 struct ifnet *ifp - ifnet; 

469 struct ifaddr *ifa; 

470 char *cp, *ep; 

471 struct ifreq ifr, *ifrp; 

472 int space = ifc-»ifc len, error = 0; 

473 ifrp = ifc-»ifc req; 

474 ep = ifr.ifr name + sizeof(ifr.ifr name) - 2; 

475 for (; space > sizeof(ifr) && ifp; ifp = ifp-»if next) ( 

476 strncpy(ifr.ifr name, ifp-»if name, sizeof(ifr.ifr name) - 2); 

477 for (cp = ifr.ifr name; cp < ep && *cp; cp*-*) 

478 continue; 

479 *cp++ = /0' + ifp-»if unit; 

480 tep = *\0°3 

481 if ((ifa = ifp->if addriist) == 0) { 

482 bzero((caddr t) & ifr.ifr addr, sizeof(ifr.ifr addr)); 

483 error - copyout((caddr t) & ifr, (caddr t) ifrp, 

484 sizeof(ifr)); 

485 if (error) 

486 break; 

487 space -= sizeof(ifr), ifrp-**; 

488 ) else 

489 for (; space > sizeof(ifr) && ifa; ifa = ifa-»ifa next) ( 

490 struct sockaddr *sa = ifa-»ifa addr; 

491 if (sa-»sa len <= sizeof(*sa)) ( 

492 ifr.ifr addr - *sa; 

493 error - copyout((caddr t) & ifr, (caddr t) ifrp, 

494 sizeof(ifr)); 

495 ifrp-*-*; 

496 ) else ( 

497 space -= sa-»sa len - sizeof(*sa); 

498 if (space « sizeof(ifr)) 

499 break; 

500 error - copyout((caddr t) & ifr, (caddr t) ifrp, 

501 sizeof(ifr.ifr name)); 

502 if (error = 0) 

503 error = copyout((caddr t) sa, 

504 (caddr t) & ifrp-»ifr addr, sa-»sa len); 

505 ifrp = (struct ifreq *) 

506 (sa-»sa len + (caddr t) & ifrp-»ifr addr); 

507 ) 

508 if (error) 

509 break; 

510 space -- sizeof(ifr); 

511 ) 

512 ) 

513 ifc-»ifc len -= space; 

514 return (error); 

515 } " 
NA 


图 4-26 Kğ% ifconf 


ifc 和 是 强制 为 一 个 ifconf 结 构 指针 的 aata。ifp 从 ifnet (列表 头 ) 开 始 遍 历 接口 列表 ， 
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而 ifa 饥 历 每 个 接口 的 地 址 列表 。cp 和 ep 控制 构造 在 ifz 中 的 接口 文本 名 称 ，ifz 是 一 个 
ifreq 结 构 ， 它 在 接口 名 称 和 地 址 复制 到 进程 的 缓存 前 保存 接口 名 称 和 地 址 。ifzg 指 向 这 个 
缓存 ， 并 且 在 每 个 地 址 被 复制 后 指向 下 一 个 。space 是 进程 缓存 中 剩余 字 节 的 个 数 ，cP 用 来 
搜寻 名 称 的 结尾 ， 而 ep 标志 接口 名 称 数 字 部 分 最 后 的 可 能 位 置 。 
475-488 for 循环 遍历 接口 列表 。 对 于 每 个 接口 ， 文 本 名 称 被 复制 到 ifr_name, 在 
ifr name 的 后 面 跟着 if_unit 数 的 文本 表示 。 如 果 没 有 给 接口 分 配 地 址 ， 一 个 全 0 的 地 址 被 
构造 ， 所 得 的 1freq 结 构 被 复制 到 进程 中 ， 并 减 小 space， 增 加 ifrp。 
489-515 如 果 接 口 有 一 个 或 多 个 地 址 ， 用 for 循 环 来 处 理 每 个 地 址 。 地 址 加 到 ifr 中 的 接 
口 名 称 中 ， 然 后 ifr 被 复制 到 进程 中 。 长 度 超过 标准 sockaddr 结 构 的 地 址 不 放 到 ifr 中 ， 并 
有 目 直 接 复制 到 进程 。 在 复制 完 每 个 地 址 后 ， 调 整 space 和 ifrp 的 值 。 所 有 接口 处 理 完 后 ， 更 
新 缓存 长 度 (ifc->ifc len), JtfHifconfjRHl, 系统 调用 ioct1 人 负责 将 结构 ifconf 中 
新 的 内 容 复 制 回 进程 中 的 结构 ifconf。 


4.4.3 举例 
图 4-27 显 示 了 以 太 网 、SLIP 和 环 回 接口 被 初始 化 后 的 接口 结构 的 配置 。 


ifnet: le softc[0]: sl. softc[0]: loif: 


ifnet() 





图 4-27 接口 和 地 址 数据 结构 
图 4-28 显 示 了 以 下 代码 执行 后 的 1fc 和 buffer 的 内 容 。 


Btruct Tfconf rfc} /* SIOCGIFCONF adjusts this */ 
char buffer[144]; /* contains interface addresses when ioctl returns */ 
int sS; /* any socket */ 


= 144; 

ifc,ifc buf e buffer: 

if (ioctl(s, SIOCGIFCONF, &ifc) « 0) ( 
perror("ioctl failed"); 
exit(1); 


Ld 


这 里 对 命令 SIOCGIFCONF 操 作 的 插口 的 类 型 没有 限制 ， 如 我 们 所 看 到 的 ， 这 个 命令 返回 
所 有 协议 族 类 的 地 址 。 
在 图 4-28 中 ， 因 为 在 缓存 中 返回 的 三 个 地 址 仅 占 用 108 (3 x 36) 字 节 ，ioct1 将 ifc_len 
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由 144 改 为 108。 返 回 三 个 sockaddr dl 地 址 ， 并 且 这 个 缓存 后 面 的 36 字 节 未 用 。 每 项 的 前 
16 个 字 节 包含 接口 的 文本 名 称 。 在 这 里 ， 这 16 字 节 中 只 有 3 个 字 节 被 使 用 。 


&ifc 





ifconfí) 
ifc len 


ifr name[] ifr addr 
Mecum (16 字 节 ) RE (20 字 节 ) 
E [|| we 
: 7 - 








108 


图 4-28 SIOCGIFCONEF 命 令 返回 的 数据 


ifr_addr 为 一 个 sockaddr 结 构 的 形式 ， 因 此 第 一 个 值 为 长 度 (20 字 市 )， 且 第 二 个 值 
为 地 址 的 类 型 (18，AF_LINK)。 接 下 来 的 一 个 值 为 sdl_index, 与 sdl_type 一 样 ， 对 于 每 
个 接口 ， 它 是 不 同 的 (与 TFT ETHER, IFT SLIP 和 IFT LOOP 相 对 应 的 值 为 6、28 和 24)。 

下 面 三 个 值 为 sa_nlen( 文 本 名 称 的 长 度 )、sa_alen( 硬 件 地 址 的 长 度 ) 及 sa_slen( 未 
用 )。 对 于 所 有 三 项 ，sa_nlen 都 为 3。 以 太 网 地 址 的 sa_alen 为 6， 而 SLIP 和 环 回 接口 的 
sa alen 为 0。sa slen 总 是 为 0。 

最 后 ， 是 接口 的 文本 名 称 ， 其 后面 是 硬件 地 址 ( 仅 对 于 以 太 网 )。SLIP 和 环 回 接口 在 
sockaddr_d1l 结 构 中 不 存放 一 个 硬件 级 地 址 。 

在 此 例 中 ， 仅 返回 sockaddqr_dq1 地 址 (因为 在 图 4-27 中 没有 配置 其 他 地 址 类 型 )， 因 此 组 
存 中 的 每 项 大 小 一 样 。 如 果 为 每 个 接口 配置 其 他 地 址 (例如 : IP 或 OSI 地 址 )， 它 们 会 同 
sockaddr_dl 地 址 一 起 返回 ， 并 且 每 项 的 大 小 根据 返回 的 地 址 类 型 的 不 同 而 不 同 。 


4.4.4 通用 接口 ioct1 命 令 


图 4-20 中 剩 下 的 四 个 接口 命令 (SIOCGIEFEFLRGS、SIOCGIEFMETRIC、SIOCSIEFELRAGS 
和 和 SIOCSIFMETRIC) 由 水 数 ifioct1l 处 理 。 图 4-29 所 示 的 是 处 理 这 些 命 令 的 case 语 句 。 

1. SIOCGIFLAGS 和 SIOCGIFMETRIC 
410-416 对 于 两 个 SIOCGxxx 命 令 ，ifioct1 将 每 个 接口 的 if flagsmif metric 值 复 
制 到 i£req 结 构 中 。 对 于 标志 ， 使 用 联合 的 成 员 ifr_f1lags， 而 对 于 度量 ， 使 用 成 员 
ifr metric (图 4-23)。 

2. SIOCSIFFLAGS 
417-429 为 改变 接口 的 标志 ， 调 用 进程 必须 有 超级 用 户 权 限 。 如 果 进 程 正在 关闭 一 个 运行 
的 接口 或 启动 一 个 未 运行 的 接口 ， 分 别 调用 if_down 和 if_up。 

3. 忽略 标志 IFF_CANTCHAGE 
430-434 回忆 图 3-7， 有 些 接口 标志 不 能 被 进程 改变 。 表 达 式 (ifp->if_flags & 
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IFF_CANTCHANGE) 清 除 能 被 进程 改变 的 接口 标志 ， 而 表达 式 (ifr->ifr_flags & ~ 
IFF CANTCHANGE) 清 除 在 请 求 中 不 被 进程 改变 的 标志 。 这 两 个 表达 式 进行 或 运算 并 作为 新 
值 保 存在 iftp->if_flags 中 。 在 返回 前 ， 请 求 被 传递 给 与 设备 相关 联 的 if_ioct1 国 数 ( 例 
如 :，LANCE 驱 动 器 的 1eioct1 一 一 图 4-31)。 


if. 
410 Switch (cmd) { 
411 case SIOCGIFFLAGS: 
412 ifr-»ifr flags = ifp-»if flags; 
413 break; 
414 case SIOCGIFMETRIC: 
415 ifr-»ifr metric = ifp-»if metric; 
416 break; 
417 case SIOCSIFFLAGS: 
418 if (error = suser(p-»p ucred, &p-»p acflag)) 
419 return (error); 
420 if (ifp-»if flags & IFF UP && (ifr-»ifr flags & IFF UP) == 0) ( 
421 Lut S = Ssplimp(); 
422 if down(ifp); 
423 Splx(s); 
424 ) 
425 if (ifr-»ifr flags & IFF UP && (ifp-»if flags & IFF UP) == O0) ( 
426 int S = splimp(); 
427 Lf. api tfb); 
428 splxís); 
429 ) 
430 ifp-»if flags - (ifp-»if flags & IFF CANTCHANGE) | 
431 (ifr-»ifr flags & ^IFF CANTCHANGE); 
432 if (ifp-»itf.loctl) 
433 [voild) (*ifp-»1Ff ioctl) (ifp, cmd, data): 
434 break; 
435 case SIOCSIFMETRIC: 
436 if (error = suser(p-»p ucred, &p-»p acflag)) 
437 return (error); 
438 ifp-»if metric = ifr-»ifr metric; 
439 break; : 
if.c 


图 4-29 ”函数 ifioct1l1: 标志 和 度量 


4. SIOCSIFMETRIC 
435-439 改变 接口 的 度量 要 容易 些 ， 进 程 同样 要 有 超级 用 户 权限 ，ifioct1 将 接口 新 的 度 
量 复制 到 if_metric 中 。 


4.4.5 if down 和 if _ up 函数 


利用 程序 ifconfig，, 一 个 管理 员 可 以 通过 命令 SIOCSIFFLAGS 设 置 或 清除 标志 
IFF_UP 来 启用 或 禁用 一 个 接口 。 图 4-30 显 示 了 BE on pl iy, 
292-302 当 一 个 接口 被 关闭 时 ，IFF_UP 标 志 被 清除 并 且 对 与 接口 关联 的 每 个 地 址 用 
pfctlinput(7.7 节 ) 发 送 命 令 PRC_IFDOWN。 这 给 每 个 协议 一 个 机 会 来 啊 应 被 关闭 的 接口 。 
有 些 协 议 ， 如 OSI， 要 使 用 接口 来 终止 连接 。 对 于 IP， 如 果 可 能 ， 要 通过 其 他 接口 为 连接 进行 
重新 路 由 。TCP 和 UDP 忽略 失效 的 接口 ， 并 依赖 路 由 协议 去 发 现 分 组 的 可 选 路 径 。 
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if_qflushZ kik D HJEM HEADH. rt ifmsouB A HARARE. TCPB 3J 
重 传 丢 失 的 分 组 ;UDP 应 用 必须 目 己 显 式 地 检测 这 种 情况 ， 并 对 此 做 出 啊 应 。 
308-315 当 一 个 接口 被 启用 时 ，IFF_UP 标 志 被 设置 并且 rt_ifmsg 通 知 路 由 系统 接口 状 


态 发 生变 化 。 
292 void ye 
293 if down(ifp) 
294 struct ifnet *ifp; 
295 ( 
296 struct ifaddr *ifa; 
297 ifp-»if flags &- "IFF UP; 
298 for (ifa = ifp-»if addrlist; ifa; ifa = ifa-»ifa next) 
299 pfctlinput(PRC IFDOWN, ifa-»ifa addr); 
300 if qflush(&ifp-»if snd); 
301 rt. ifmsg(ifp); 
302 ) 
308 void 
309 if up(ifp) 
310 struct ifnet *ifp; 
31i f 
312 struct ifaddr *ifa; 
313 ifp-»if flags |= IFF UP; 
314 rt ifmsg(ifp); 
315 } : 
if.c 


图 4-30 国 数 if down 和 if up 


4.4.6 以 太 网 、SLIP 和 环 回 


我 们 看 图 4-29 中 处 理 SIOCSIEEFLRAGS 命 令 的 代码 ，ifioct1 调 用 接口 的 if_ioct1 图 数 。 
在 我 们 的 三 个 例子 接口 中 ， 国 数 sLlioct1 和 1loioct1 为 这 个 被 ifioct1 忽 略 的 命令 返回 
EINVAL, 。 图 4-31 显 示 了 国 数 leioct1L 及 LANCE 以 太 网 驱动 程序 的 SIOCSIERELRAGS 命 令 的 


处 理 。 





if le.c 


614 leioctl(ifp, cmd, data) 
615 struct ifnet *ifp; 


616 int 


cmd; 


617 caddr t data; 


618 { 
619 
620 
621 
622 


623 


638 


struct ifaddr *ifa s (struct ifaddr *) data; 
struct le softc *le - &le softc[ifp-»if unit]; 
struct leregl1 *lerl = le-»sc r1; 

int S = Splimp(), error = 0; 


switch (cmd) ( 


/* SIOCSIFADDR code Fic 





case SIOCSIFFLAGS: 


图 4-31 Kğrleioctl; SIOCSIFFLAGS 
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639 lf ((ifp-sif_flags & IFE_UP) zs 0 && 

640 ifp-»if flags & IFF RUNNING) { 

641 LERDWR(le-»sc r0, LE STOP, lerl-»lerl1 rdp); 

642 ifp-»if flags &- ^IFF, RUNNING; 

643 } else if (ifp-»if flags & IFF UP && 

644 (ifp-»if flags & IFF RUNNING) == 0) 

645 leinit(ifp-»if unit); 

646 d 

647 * If the state of the promiscuous bit changes, the interface 
648 * must be reset to effect the change. 

649 wy 

650 if (((ifp-»if flags ^ le-»sc iflags) & IFF_PROMISC) && 
651 (ifp-»if flags & IFF, RUNNING)) ( 

652 le-»sc iflags = ifp-»if flags; 

653 lereset(ifp-»if unit); 

654 lestart(ifp); 

655 ) 

656 break; 


/* SIOCADDMULTI and SIOCDELMULTI code (Figui 





672 default: 

673 error - EINVAL; 
674 ) 

675 splx (s); 

676 return (error); 

677 } 


if_le.c 
图 4-31 (£x) 


614-623 leioct1l 把 第 三 个 参数 data 转 换 为 一 个 i1faddr 结 构 的 指针 ， 并 保存 在 ifa 中 。 
le 指针 引用 下 标 为 fp->if unit 的 le_softc 结 构 。 基于 cmd 的 switch 语 句 构 成 了 这 个 
函数 的 主体 。 
638-656 在 图 4-31 中 仅 显 示 了 case SIOCSIFFLAGS。 这 次 i1fioct1l 调 用 leioct1， 
接口 标志 被 改变 。 显 示 的 代码 强制 物理 接口 进入 标志 所 配置 的 状态 。 如 果 要 关闭 接口 (没有 
设置 TFF_UP)， 但 接口 正在 工作 ， 则 关闭 接口 。 若 要 启动 未 操作 的 接口 ， 接 口 被 初始 化 并 
重启 。 

如 果 混 淆 比特 被 改变 ， 那 么 就 关闭 接口 ， 复 位 ， 并 重启 来 实现 这 种 变化 。 

仅 当 要 求 改变 IFF PROMISC 比 特 时 包含 异 或 和 IFE_PROMISC 的 表达 式 才 

为 真 。 

672-677 处 理 未 识别 命令 的 default 情 况 分 支 发 送 EBINVRAL， 并 在 国 数 的 结尾 将 它 返 回 。 


4.5 uà 


在 本 章 中 ， 我 们 说 明了 LANCE 以 太 网 设备 驱动 程序 的 实现 ， 这 个 驱动 程序 在 全 书 中 多 处 
引用 。 我 们 还 看 到 了 以 太 网 驱动 程序 如 何 检测 输入 中 的 广播 地 址 和 多 播 地 址 ， 如 何 检 测 以 太 
网 和 802.3 封 装 ， 以 及 如 何 将 输入 的 帧 分 用 到 相应 的 协议 队列 中 。 在 第 21 章 中 我 们 会 看 到 卫 地 
址 ( 单 播 、 广 播 和 多 播 ) 是 如 何在 输出 转换 成 正确 的 以 大 网 地 址 。 
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最 后 ， 我 们 讨论 了 协议 专用 的 ioct1 命 令 ， 它 用 来 访问 接口 层 数据 结构 。 
习题 | 


4.1 在 leread 中 ， 当 接收 到 一 个 广播 分 组 时 ， 总 是 设置 标志 M_MCAST( 除 了 M_BCAST 
外 )。 与 ether_input 的 代码 比较 ， 为 什么 在 leread 和 ether_input 中 设置 此 标 
志 ? 它 至 关 重 要 吗 ? 哪个 正确 ? 

4.2 在 ether_input( 图 4-13) 中 ， 如 果 交 换 广 播 地 址 和 多 播 地 址 检测 次 序 会 发 生 什 么 情 
况 ? 如 果 在 检测 多 播 地 址 的 iE 语 名 前 加 上 一 个 else 会 发 生 什么 情况 ? 


$852 接口: SLIP 和 环 回 


5.1 引言 


在 第 4 章 中 ， 我 们 查看 了 以 太 网 接口 。 在 本 章 中 ， 我 们 讨论 SLIP 和 环 回 接口 ， 同 样 用 
ioct1 命 令 来 配置 所 有 网 络 接 口 。SLIP 驱 动 程序 使 用 的 TCP 压 缩 算法 在 29.13 市 讨论 。 环 回 驱 
动 程序 比较 简单， 在 这 里 我 们 要 对 它 进行 完整 地 讨论 。 

像 图 4-2 一 样 ， 图 5-1 列 出 了 针对 我 们 三 个 示例 驱动 程序 的 入 口上 后 。 


leinit 初始 化 硬件 
if output ether output | sloutput | looutput 接收 并 将 要 传输 的 分 组 进行 排队 
if start lestart 开始 传输 帧 


if done 输出 完成 (未 用 ) 
if ioctl leioctl slioctl loioctl 从 一 个 进程 处 理 ioct1 命 令 


if reset lereset 将 设备 重新 设置 为 一 已 知 状态 
if watchdog 监视 设备 的 故障 或 采集 统计 信息 


图 5-1 例子 驱动 程序 的 接口 函数 





5.2 代码 介绍 
SLIP 和 环 回 驱动 程序 的 代码 文件 列 于 图 5-2 中 。 


net/if slvar.h SLIPZE Y. 


net/if sl.c SLIPJX z/jfz Fr E 2x 
net/if loop.c 环 回 驱动 程序 


图 5-2 本 章 讨论 的 文件 





5.2.1 全 局 变量 
在 本 章 讨论 SLIP 和 环 回 接口 结构 。 全 局 变量 见 图 5-3。 


数据 类 型 
sl softc struct sl softc [] SLIP 接 口 
loif struct ifnet 环 回 接口 

图 5-3 本 章 中 介绍 的 全 局 变量 


sl_softc 是 一 个 数组 ， 因 为 可 能 有 很 多 SLIP 接 口 。1oif 不 是 一 个 数组 ， 因 为 只 可 能 有 
一 个 环 回 接口 。 
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5.2.2 统计 量 
在 第 4 音 讨 论 的 1fnet 结 构 的 统计 也 会 被 SLIP 和 环 回 驱动 程序 更 新 。 采 集 的 另 一 个 统计 量 


( 它 不 在 ifnet 结 构 中 ) 显示 在 图 5-4 中 。 
图 5-4 变量 tk nin 
一 个 SLIP 接 口 通过 一 个 标准 的 异步 串 行 线 与 一 个 远程 系统 通信 。 像 以 太 网 一 样 ，SLIP 定 
义 了 一 个 标准 的 方法 对 传输 在 串 行 线 上 的 了 P 了 分 组 进行 组 帧 。 图 $-5$ 显 示 了 将 一 个 包含 SLIP 保 留 
字符 的 IP 分 组 封装 到 一 个 SLIP 帧 中 。 
分 组 用 SLIP END 字 符 0xc0 来 分 割 开 。 如 果 END 字 符 出 现在 IP 分 组 中 ， 则 在 它 前 面 填充 
SLIP ESC 字 符 0xdb， 并 且 在 传输 时 将 它 替 换 为 0xdc。 当 ESC 字 符 出 现在 IP 分 组 中 时 ， 就 在 


它 前 面 填充 ESC 字 符 0xdb， 并 在 传输 时 将 它 替换 为 0xdd。 
因为 在 SLIP 帧 (与 以 太 网 比较 ) 中 没有 类 型 字段 ，SLIP 仅 适用 于 传输 IP 分 组 。 


< 


IP47£ 
在 分 组 中 的 END 在 分 组 中 的 ESC 
RM Ro 
: P3 mt ， 
. ESC z ee | 


三 转 义 的 END ` | F 转 义 的 ESC ^ [-END 





5.3 SLIP 接 口 





图 5-5 将 一 个 卫 分 组 进行 SLIP 封 装 


在 RFC 1055 [Romkey 1988] 中 讨论 了 SLIP， 陈 述 了 它 的 很 多 弱点 和 非 标准 情况 。 
卷 1 中 包含 了 SLIP 封 装 的 详细 讨论 。 

点 对 点 协议 (PPP) 被 设计 用 来 解决 SLIP 的 问题 ， 并 提供 一 个 标准 方法 来 通过 一 个 
串 行 链 路 传输 帧 。PPP 在 REFC 1332 [McGregor 1992] 和 RFC 1548 [Simpson 1993] 中 定 
义 。Net/3 不 包含 一 个 PPP 的 实现 ， 因 此 我 们 不 在 本 书 中 讨论 它 。 关 于 PPP 的 更 多 信息 
见 卷 1 的 2.6 节 。 附 录 B 讨 论 在 哪里 获得 一 个 PPP 实 现 的 参考 。 


5.3.1 SLIP 线 路 规程 : SLIPDISC 


在 Net/3 中 ，SLIP 接 口 依 靠 一 个 异步 串 行 设备 驱动 器 来 发 送 和 接收 数据 。 传 统 上 ， 这 些 设 
备 驱 动 器 称 为 TTY( 电 传 机 )。Net/3 TTY 子 系统 包括 一 个 线路 规程 的 概念 ， 这 个 线路 规程 作为 
一 个 在 物理 设备 和 I/O 系 统 调用 (如 read 和 write) 之 间 的 过 滤器 ,一 个 线路 规程 实现 以 下 特性 : 
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如 行 编辑 、 换 行 和 回 车 处 理 、 制 表 符 扩展 等 等 。SLIP 接 口 作 为 TTY 子 系统 的 一 个 线路 规程 ， 
但 它 不 把 输入 数据 传 给 从 设备 读数 据 的 进程 ,也 不 接受 来 自问 设备 写 数据 的 进程 的 输出 数据 。 
SLIP 接 口 将 输入 分 组 传 给 IP 输 入 队列 ， 并 通过 SLIP 的 ifnet 结 构 中 的 图 数 if_output 来 获 
得 要 输出 的 分 组 。 内 核 通 过 一 个 整数 常量 来 标识 线路 规程 ， 对 于 SLIP, 该 常量 是 
SLIPDISC, 

图 5-6 左 边 显示 的 是 传统 的 线路 规程 ， 右 边 是 SLIP 规 程 。 我 们 在 右边 用 slattach 显 示 进 
程 ， 因 为 它 是 初始 化 SLIP 接 口 的 程序 。TTY 子 系统 和 线路 规程 的 细节 超出 了 本 书 的 范围 。 我 
们 仅 介 绍 理解 SLIP 代 码 工 作 的 相关 信息 。 对 于 更 多 关于 TTY 子 系统 的 信息 见 [Leffler et al. 
1989]。 图 $-7 列 出 了 实现 SLIP 驱 动 程序 的 国 数 。 中 则 的 列 指示 图 数 是 否 实现 线路 规程 特性 和 
(或 ) 网 络 接口 特性 。 


设备 驱动 程序 





PITA RITA 


slattach 初始 化 sl1_softc 结 构 ， 并 将 它 连接 到 ifnet 列 表 
slinit 初始 化 SLIP 数 据 结 构 

sloutput 对 相关 TTY 设 备 上 要 传输 的 输出 分 组 进行 排队 
slioctl 处 理 插口 ioct1 请 求 


将 一 个 设备 缓存 转换 成 一 个 mbuf 链 表 


slopen 将 sl_softc 结 构 连 接 到 TTY 设 备 ， 并 初始 化 驱动 程序 
slclose 取消 TTY 设 备 与 sl1_softc 结 构 的 连接 ， 标 记 接 口 为 关闭 ， 并 释放 存储 器 
sltioctl 处 理 TTY ioct1 命 令 


slstart 从 队列 中 取 分 组 ， 并 开始 在 TTY 设 备 上 传输 数据 
slinput 处 理 从 TTY 设 备 输入 的 字 节 ， 如 果 整 个 帧 被 接收 ， 就 排列 输入 的 分 组 
图 5-7 SLIP 设 备 驱 动 程序 的 函数 


在 Net3 中 的 SLIP 驱 动 程序 通过 支持 TCP 分 组 首部 压缩 来 得 到 更 好 的 吞吐 量 。 我 们 在 29.13 
节 讨 论 分 组 首部 压缩 ， 因 此 ， 图 5-7 跳 过 实现 这 些 特 性 的 函数 。 


Net/3 SLIP 接 口 还 支持 一 种 转 义 序列 。 当 接收 方 检测 到 这 个 序列 时 ， 就 终止 SLIP 
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的 处 理 ， 并 将 对 设备 的 控制 返回 给 标准 线路 规程 。 我 们 这 里 的 讨论 忽略 这 个 处 理 。 
图 5-8 显 示 了 作为 一 个 线路 规程 的 SLIP 和 作为 一 个 网 络 接 口 的 SLIP 间 的 复杂 关系 。 


tr WD og 


sl softc[0]: 


bm Lj | sas | 

















输入 字符 ik 输出 字符 
图 5-8 SLIP 设 备 驱动 程序 


在 Net/3 中 ，sc ttyp 和 t sc 指向 tty 结 构 和 sl_softc[0] 结构。 由 于 使 用 两 
个 箭头 会 使 图 显得 较 乱 ， 我 们 用 一 对 相反 的 箭头 表示 两 个 指针 来 说 明 结 构 间 的 双 链 。 


在 图 5-8 中 包含 很 多 信息 : 

。 结构 sl_softc 表 示 的 网 络 接口 和 结构 tty 表 示 的 TTY 设 备 。 

。 输 入 字 节 存放 在 徐 中 (显示 在 结构 tyy 后 面 )。 当 一 个 完整 的 SLIP 帧 被 接收 时 ， 封 装 的 IP 分 
组 被 slinput 放 到 ipintrq 中 。 

。 输 出 分 组 从 if _ snd 或 sc_fastq 退 队 , 转换 成 SLIP 巾 ,并 被 slstart 传 给 TTY 设 备 。 
TTY 缓 存 将 字 节 输出 到 结构 clist。 函 数 t_oproc 取 完 ， 并 传输 在 clist 结 构 中 的 
FH. 

5.3.2 SLIP 初 始 化 : slopendüslinit 


我 们 在 3.7 节 讨论 了 slattach 是 如 何 初 始 化 sl1_softc 结 构 的 。 接 口 虽然 被 初始 化 ， 但 
还 不 能 操作 ， 直 到 一 个 程序 (通常 是 slattach) 打 开 一 个 TTY 设 备 (例如 : /dev/tty01), 并 
发 送 一 个 ioct1l 命 令 用 SLIP 规 程 代替 标准 的 线路 规程 才能 操作 。 这 时 ，TTY 子 系统 调用 线路 
规程 的 打开 函数 (在 此 是 slopen)， 此 函数 在 一 个 特定 TTY 设 备 和 一 个 特定 SLIP 接 口 则 建立 关 
联 。slopen 显 示 在 图 5-9 中 。 
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181 int f slc 
182 slopen(dev, tp) 

183 dev t dev; 

184 struct tty *tp; 

185 { 

186 struct proc *p = curproc; /* XXX */ 

187 struct sl softco tsc; 

188 int nsl; 

189 int error; 

190 if (error = suser(p-»p ucred, &p-»p acflag)) 

191 return (error); 

192 if (tp-»t line == SLIPDISC) 

193 return (0); 

194 for (nsl = NSL, sc = sl. softc; --nsl >= 0; sc++) 
195 if (sc-»sc ttyp == NULL) 1 

196 if (slinit(sc) ss 0) 

197 return (ENOBUFS); 

198 tp-»t sc = (caddr t) sc; 

199 sc-»sc ttyp = tp; 

200 Sc-»sc if.if baudrate = tp-»t ospeed; 
201 ttyflush(tp, FREAD | FWRITE); 

202 return (0); 

203 ) 

204 return (ENXIO); 

cuu if sl.c 


图 5-9 函数 slopen 


181-193 传递 给 slopen 的 两 个 参数 为 : dev， 一 个 内 核 设备 标识 ，sL1open 未 用 此 参数 ; 
tp， 一 个 指向 此 TTY 设 备 相 关 tty 结 构 的 指针 。 最 开始 是 一 些 预防 处 理 : 若 进 程 没 有 超级 用 
户 权 限 ， 或 TTY 的 线路 规程 已 经 被 设置 为 SLIPDISC， 则 sl1open 立 即 返 回 。 

194-205 for Esl _softc 结 构 数 组 中 查找 第 一 个 未 用 的 项 ， 调 用 slinit (5.1075), 
通过 t_sc 和 sc_ttyp 加 进 结构 tty 和 sl_softc， 并 将 TTY 输 出 速率 (t_ospeed) 复 制 到 
SLIP 接 口 。ttyflush 丢 弃 任 何在 TTY 队 列 中 追加 的 输入 输出 数据 。 如 果 一 个 SLIP 接 口 结构 
不 可 用 ，slopen 返 回 ENXIO。 若 成 功 ， 返 回 0。 | 

注意 ， 第 一 个 变量 sl softc 结 构 与 TTY 设 备 相 关 。 如 果 系 统 有 多 个 SLIP 线 路 ， 

在 TTY 设 备 和 SLIP 接 口 间 不 需要 固定 的 映射 。 实 际 上 ， 这 个 映射 依赖 于 slattach 

打开 和 关闭 TTY 设 备 的 次 序 。 

显示 在 图 $-10 中 的 国 数 s1init 初 始 化 结构 s1_softc。 

156-175 国 数 slLinit 分 配 一 个 mbuf 欠 ， 并 将 它 用 三 个 指针 连接 到 结构 s1L_softc。 当 一 
个 完整 的 SLIP 帧 被 接收 后 ， 输 入 字 届 存储 在 这 个 得 中 。sc_buf 总 是 指 同 复 中 的 这 个 分 组 的 
起 始 位 置 ，sc_mp 指 向 要 接收 的 下 一 个 字 市 的 位 置 ， 并 且 sc_ep 指 向 这 个 徐 的 结束 。 
sl compress init 为 此 链 路 初始 化 TCP 首 部 的 压缩 状态 (29.13 节 )。 

在 图 5-8 中 ， 我 们 看 到 sc_buf 不 指向 筷 的 第 一 个 字 节 。slinit 保 留 了 148 字 节 
(BUFOFFSET) 的 空间 ， 因 为 输入 分 组 可 能 含有 一 个 压缩 了 的 首部 ， 它 会 扩展 来 填充 这 个 空间 。 
在 族 中 已 接收 的 字 市 用 阴影 表示 。 我 们 看 到 sc_mp 指 问 接 收 的 最 后 一 个 字 市 的 下 一 个 字 市 ， 
并 且 sc_ep 指 同 这 个 徐 的 结尾 。 图 $-11 显 示 了 在 几 个 SLIP 稍 量 间 的 关系 。 
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使 这 个 接口 能 运行 ， 剩 下 的 要 做 的 工作 就 是 给 它 分 配 一 个 了 地 址 。 同 以 太 网 驱动 程序 一 
样 ， 我 们 将 地 址 分 配 的 讨论 推迟 到 6.6 节 。 


—— if sl.c 
156 statio int 
157 slinit(sc) 
158 struct sl softc *sc; 
159 ( 
160 caddr t p; 
161 if (sc-»sc,. ep == fü char *) 0) ( 
162 MCLALLOC (p, M WAIT); 
163 if (p) 
164 Sc-»sc, ep = (u_char *) p + SLBUFSIZE; 
165 else ( 
166 printf ("sl%d: can't allocate bufferMn", sc - sl softc); 
167 sc-»sc if.if flags &- "IFF UP; 
168 l return (0); 
169 ) 
170 ) 
TIL sc-»sc buf = sc-»sc ep - SLMAX; 
172 SC-»SC mp = sc-»sc buf; 
173 sl compress init(&sc-»sc comp); 
174 return (1); 
175 ) 

if sl.c 





图 5-10 rZ slinit 


MCLBYTES 一 个 mbuf 钞 的 大 小 
SLBUFSIZE 一 个 未 压缩 的 SLIP 分 组 的 最 大 长 度 一 一 包括 一 个 BPF 首 部 
SLIP HDRLEN SLIP BPF 首 部 的 大 小 


BUFOFFSET 一 个 扩展 的 TCP/IP 首 部 的 最 大 长 度 加 上 一 个 BPF 首 部 的 大 小 

SLMAX 一 个 存储 在 乱 中 的 压缩 SLIP 分 组 的 最 大 长 度 

SLMTU SLIP 分 组 的 最 佳 长 度 ， 导 致 最 小 的 时 延 ， 同 时 还 有 较 高 的 批量 吞吐 量 

SLIP HIWAT 在 TTY 输 出 队列 中 排队 的 最 大 字 市 数 
BUFOFFSET+SLMAX=SLBUFSIZE=MCLBYTES 





图 5-11 SLIP © 


5.3.3 SLIP 输入 处 理 : slinput 


TTY 设 备 驱动 程序 每 次 调用 slinput， 都 将 输入 字符 传 给 SLIP 线 路 规程 。 图 5-12 显 示 了 
图 数 sLinput， 但 跳 过 了 帧 结束 的 处 理 ， 对 于 它 我 们 分 开 讨 论 。 
527-545 传递 给 slinput 的 参数 为 : c， 下 一 个 输入 字符 ; tp， 一 个 指向 设备 tty 结 构 的 指 
针 。 全 局 整数 tk_nin 计 算 所 有 TTY 设 备 的 输入 字符 数 。slinput 将 tp->t_sc 转 换 成 sc，sc 
是 指向 一 个 sl_softc 结 构 的 指针 。 如 果 这 个 TTY 设 备 没有 相关 联 的 接口 ，slinput 立 即 返回 。 

slinput 的 第 一 个 参数 是 一 个 整数 。 除 了 接收 的 字符 ，c 还 包含 从 TTY 设 备 驱 动 程序 以 
高 位 在 前 的 比特 序 发 送 的 控制 字符 。 如 果 在 c 中 指示 了 一 个 差错 ， 或 调制 解 调 器 控制 线 禁 用 并 
且 不 应 该 被 忽略 ， 则 SC_ERROR 被 置 位 ， 并 且 slinput 返 回 。 之 后 ， 当 slinput 处 理 END 字 
符 时 ， 此 帧 被 丢弃 。 标 志 CLOCRAL 指 示 系 统 应 该 把 这 个 线路 视 为 一 个 本 地 线路 ( 即 不 是 一 个 拨 
号 线路 )， 并 且 不 应 该 看 到 调制 解 调 姓 的 控制 信号 。 
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> if_sl.c 
527 void 
528 slinput(c, tp) 
529 int e 
530 struct tty *vcp; 
531 1 
532 struct sl softc *sc; 
533 struct mbuf *m; 
534 int len; 
535 int Sg; 
536 u_char chdr[CHDR, LEN] ; 
537 tk nin-**; 
538 sc = (struct sl softc *) tp-»t. sc; 
539 if (sc == NULL) 
540 return; 
541 if (c & TTY ERRORMASK || ((tp-»t state & TS CARR ON) == 0 && 
542 (tp-»t cflag & CLOCAL) == 0)) ( 
543 sc-»sc flags |- SC ERROR; 
544 return; 
545 ) 
546 C &- TTY CHARMASK; 
547 ^-*sc-2»sc 1f.1f lbytes; 
548 switch (c) ( 
549 case TRANS FRAME ESCAPE: 
550 if (sc-»sc. escape) 
551 C = FRAME ESCAPE; 
552 break; 
3233 case TRANS, FRAME END: 
554 if (sc-»sc. escape) 
555 C - FRAME END; 
556 break; 
557 case FRAME ESCAPE: 
558 SC-»SC, escape = 1; 
559 return; 
560 case FRAME END: 
636 ) 
637 if (sc-»sc mp < sc-»sc ep) ( 
638 *sc-»Sc mp*«- = Cc; 
639 SC-»SC, escape = O0; 
640 return; 
641 ) 
642 /* can't put lower; would miss an extra frame */ 
643 Sc-»sc flags |= SC, ERROR; 
644 error: 
645 Sc-»sc if.if ierrors--«; 
646 newpack: 
647 SC-»SC. mp = sc-»sc, buf = sc-»sc ep - SLMAX; 
648 SC-»SC, escape = 0; 
649 ) 





if sl.c 
图 5-12 PEZ slinput 


£54 diu. SLIP 和 了 环 回 107 


546-636 slinput 丢 弃 c 中 的 控制 比特 ， 并 用 TTY CHARMASK 来 屏蔽 掉 ， 更 新 接口 上 接收 
字 方 数 的 计数 ， 同 时 跳 过 接收 到 的 字符 : 
。 如 果 c 是 一 个 转 义 的 ESC 字 符 ， 并 且 前 一 字符 为 ESC， 则 slinput 用 一 个 ESC 字 符 替 代 c。 
。 如 果 c 是 一 个 转 义 的 END 字 符 ， 并 且 前 一 字符 为 ESC， 则 slinput 用 一 个 END 字 符 代替 c。 
。 如 果 c 是 SLIP ESC 字 符 ， 则 将 sc_escape 置 位 ， 并 且 s1Linput 立 即 返回 ( 即 ，ESC 字 符 
U ES). 
。 如 果 c 是 SLIP END 字 符 ， 则 将 分 组 放 到 IP 输 入 队列 。 处 理 SLIP 帧 结束 字符 的 代码 显示 在 


图 5- l 3 中 o 
if sl.c 

560 case FRAME END: 
561 if (sc-»sc flags & SC ERROR) { 
562 sc-»sc flags &= ^SC ERROR; 
563 goto newpack; 
564 ) 
565 len = sc-»sc mp - sc-»sc buf; 
566 if (len < 3) 
567 /* less than min length packet - ignore */ 
568 goto newpack; 
569 if (sc-»sc bpf) ( 
570 p” 
S71 * Save the compressed header, so we 
572 * can tack it on later. Note that we 
573 * will end up copying garbage in some 
574 * cases but this is okay. We remember 
575 * where the buffer started so we can 
576 * compute the new header length. 
377 rd 
578 bcopy (sc->sc_buf, chdr, CHDR LEN); 
579 ) 
580 if (le = (*sc-»sc buf & Oxf0)) != (IPVERSION << 4)) 1 
581 if (c & 0x80) 
582 C = TYPE COMPRESSED TCP; 
583 else if (c == TYPE UNCOMPRESSED TCP) 
584 *sc-»sc, buf &= Ox4f; /* XXX */ 
585 [* 
586 * We've got something that's not an IP packet. 
587 * If compression is enabled, try to decompress it. 
588 * Otherwise, if auto-enable compression is on and 
589 * it's a reasonable packet, decompress it and then 
590 * enable compression. Otherwise, drop it. 
591 "y 
592 if (sc-»sc if.if flags & SC COMPRESS) ( 
593 len = sl, uncompress tcp(&sc-»sc buf, len, 
594 (u int) c, &sc-»sc, comp); 
595 if (len «s 0) 
596 goto error; 
597 ) else if ((sc-»sc if.if flags & SC AUTOCOMP) && 
598 == TYPE UNCOMPRESSED TCP && len »- 40) ( 
599 len = sl, uncompress tcp(&sc-»sc buf, len, 
600 (u int) c, &sc-»sc. comp); 
601 if (len <= 0) 
602 goto error; 
603 sc-»sc if.if flags |= SC COMPRESS; 
604 ) else 


图 5-13 函数 slinput : 帧 结束 处 理 


106 TCP/IP ŽA %2: A 


605 goto error; 

606 } 

607 if (sc-»sc bpf) { 

608 r 

609 * Put the SLIP pseudo-"link header" in place. 
610 * We couldn't do this any earlier since 
611 * decompression probably moved the buffer 
612 * pointer. Then, invoke BPF. 

613 af i 

614 u_char *hp = sc-»sc buf - SLIP HDRLEN; 
615 hp[SLX DIR] = SLIPDIR IN; 

616 bcopy(chdr, &hp[SLX CHDR], CHDR LEN); 
617 bpf tap(sc-»sc bpf, hp, len + SLIP HDRLEN); 
618 ) 

619 m = sl btom(sc, len); 

620 if (m == NULL) 

621 goto error; 

622 sc-»sSc if.if ipackets--; 

623 Sc-»sc if.if lastchange = time; 

624 S = splimp(); 

625 if (IF. QFULL(&ipintrq)) ( 

626 IF DROP(&ipintrq); 

627 Sc-»sc if.if ierrors-**; 

628 Sc-»sc if.if iqdrops-*-*; 

629 m freem(m); 

630 ) else ( 

631 IF ENQUEUE(&ipintrq, m); 

632 schednetisr(NETISR IP); 

633 ) 

634 splx (s); 

635 goto newpack; 


if_sl.c 
图 5$-13 ( 续 ) 


通过 这 个 switch 语 句 的 普通 控制 流 会 落 到 switch 外 (这 里 没有 default 情 况 )。 大 多 数字 
市 是 数据 ， 并 且 不 与 这 4 种 情况 中 的 任何 一 种 匹配 。 前 两 个 case 的 控制 也 会 落 到 这 个 switch 外 。 
637-649 如 果 控 制 落 到 switch 外 ， 接 收 的 字符 为 I1P 分 组 中 的 一 部 分 。 这 个 字符 被 存储 到 簇 
中 (如 果 还 有 空间 )， 指 针 增 加 ，sc_escape 被 清除 ， 并 且 sl1input 返 回 。 

如 果 签 满 ， 字 符 被 丢弃 ， 并 且 s1linput 设 置 SC_ERROR。 如 果 徐 满 或 在 处 理 帧 结束 时 检 
测 到 一 个 差错 ， 则 控制 跳 到 error。 程 序 在 newpack 为 一 个 新 的 分 组 重 设 族 指 针 ， 
sc escape 被 清除 ， 并 且 slinput 返 回 。 

图 5-13 显 示 了 图 5-12 中 跳 过 的 FRAME_ END 代码 。 
560-579 如 果 SC_ERROR 被 设置 ， 同 时 正在 接收 分 组 或 如 果 分 组 长 度 小 于 3 字 市 ( 记 住 ， 分 
组 可 能 被 压缩 )， 则 slinput 立即 丢弃 此 输入 SLIP 分 组 ，。 

如 果 SLIP 接 口 带 有 BPF，slinput 在 chdr 数 组 中 保存 这 个 首部 的 一 个 备份 (可 能 被 
压缩 )。 
580-606 通过 检查 分 组 的 第 一 个 字 蔬 ，s1input 判 断 它 是 一 个 未 压缩 的 卫 分 组 ， 还 是 一 个 
压缩 的 TCP 分 段 ， 或 者 一 个 未 压缩 的 TCP 分 段 。 类 型 存放 在 c 中 ， 并 且 类 型 信息 从 数据 的 第 一 
个 字 太 中 移 去 (29.13 布 )。 如 果 分 组 以 压 织 形 式 出 现 ， 并 且 人 允许 压缩 ，s1l_uncompress_tcp 
对 分 组 进行 解压 缩 。 如 采 蔡 止 压缩 ， 目 动 允 许 压 缩 被 设置 ， 并 且 如 采 分 组 足够 大 ， 则 仍然 调 
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用 s1_uncompress_tcp。 如 果 是 一 个 压缩 的 TCP 分 组 ， 则 设置 压缩 标志 。 

若 分 组 不 被 识别 ，slinput 跳 到 error， 丢弃 此 分 组 。29.13 市 详细 讨论 了 首部 压缩 技术 。 
现在 徐 中 包含 一 个 完整 的 未 压缩 分 组 。 
607-618 SLIP 解 压缩 分 组 后 ， 首 部 和 数据 传 给 BPF。 图 5-14 显 示 了 slinput 构 造 的 缓存 格式 。 


hp[SLX DIR] 







hp[SLX CHDR] 
Sc-»sc buf 


未 用 缓存 空间 i ”压缩 的 首部 | 未 压缩 的 首部 





[ow 9?) 


| | ; 原 分 组 
CHDR LEN (len 字 ^h) 
| SLIP HDRLEN | 


图 5-14 BPF 格 式 的 SLIP 分 组 


BPF 首 部 的 第 一 个 字 节 是 分 组 方向 的 编码 ， 在 此 例 中 是 输入 (SLIPDIR_IN)。 接 下 来 的 15 
字 节 包含 压缩 的 首部 。 整 个 分 组 被 传 给 bpf_tap。 
619-635 sl_btom 将 簇 转 换 为 一 个 mbuf 链 表 。 如 果 分 组 足够 小 , 能 放 到 一 个 单独 的 mbuf 中 ， 
s1 _btom 就 将 分 组 从 答复 制 到 一 个 新 分 配 的 mbut 的 分 组 首部 ， 人 否则 s1_btom 将 这 个 徐 连 接 
到 一 个 mbuf， 并 为 这 个 接口 分 配 一 个 新 化。 这 样 比 从 一 个 往复 制 到 另 一 个 复 要 快 。 我 们 在 本 
书 中 不 显示 s1_btom 的 代码 。 

因为 在 SLIP 接 口上 只 能 传输 IP 分 组 ，slinput 不 必 选 择 协议 队列 (如 以 太 网 驱动 程序 所 
做 )。 分 组 在 ijpintrq 中 排队 ， 一 个 IP 软 件 中 断 被 调度 ， 并 且 slinput 跳 到 newpack， 更 新 
徐 的 分 组 指针 ， 并 清除 sc_escape。 


如 果 分 组 不 能 在 ijpintrq 上 排队 ，SLIP 驱 动 程序 增加 if_ierrors， 而 在 这 种 
情况 下 ， 以 太 网 或 环 回 驱 动 程序 都 不 增加 这 个 统计 量 。 


即使 在 spltty 调 用 slinput， 访问 IP 输 入 队列 必须 用 splimp 保 护 。 回 忆 图 1-14, 一 个 
splimp 中 断 能 抢占 spltty 进 程 。 


5.3.4 _ SLIP 输出 处 理 : sloutput 


如 所 有 的 网 络 接 口 ， 当 一 个 网 络 层 协议 调用 接口 的 1f_output 函 数 时 ， 开 始 处 理 输 出 。 对 
于 以 太 网 驱动 程序 ， 此 函数 是 ether_output。 而 对 于 SLIP， 此 函数 是 sloutput( 图 5-15)。 
259-289 sloutput 的 4 个 参数 为 : ifp， 指 向 SLIP ifnet 结 构 ( 在 此 例 中 是 一 个 
sl_softc 结 构 ) 的 指针 ，m， 指 向 排队 等 待 输出 的 分 组 的 指针 ，dst ， 分 组 下 一 跳 的 目标 地 
址 ，rtp， 指 向 一 个 路 由 表 项 的 指针 。sloutput 未 用 第 4 个 参数 ， 但 却 是 要 求 的 ， 因 为 
sloutput 必 须 匹 配 在 ifnet 结 构 中 的 if_output 国 数 原 型 。 

sloutput 确 认 dst 是 一 个 IP 地 址 ， 接 口 被 连接 到 一 个 TTY 设 备 ， 并 且 这 个 TTY 设 备 是 正 
在 运行 的 ( 即 有 载波 信号 ， 或 应 忽略 它 )。 如 果 任 何 检 测 失败 ， 则 返回 差错 。 

290-291 SLIP 为 输出 分 组 维护 两 个 队列 。 上 默认 选择 标准 队列 if_sng。 
292-295 如 果 输 出 分 组 包含 一 个 ICMP 报 文 , 并 且 接 口 的 SC_NOICMP 被 置 位 , 则 丢弃 此 分 组 。 
这 防止 一 个 SLIP 链 路 被 一 个 恶意 用 户 发 送 的 无 关 ICMP 分 组 (例如 ECHO 分 组 ) 所 淹没 (第 11 章 )。 
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259 int ane 
260 sloutput(ifp, m, dst, rtp) 
261 struct ifnet *ifp; 
262 struct mbuf *m; 
263 struct sockaddr *dst; 
264 struct rtentry *rtp; 
265 ( 
266 struct sl softc *sc = &sl softc[ifp-»if unit]; 
267 Struct ip *ip; 
268 struct ifqueue *ifq; 
269 int S; 
270 diu 
271 * Cannot happen (see slioctl). Someday we will extend 
272 * the line protocol to support other address families. 
273 *P 
274 if (dst-»sa family !- AF INET) ( 
275 printf("sl$d: af$d not supportedMn", sc-»sc if.if unit, 
276 dst-»sa family); 
aTi m freem(m); 
278 sc-»sc if.if noproto++; 
279 return (EAFNOSUPPORT); 
280 ) 
281 if (sc-»sc ttyp == NULL) ( 
282 m freem(m); 
283 return (ENETDOWN); /* sort of */ 
284 ) 
285 if ((sc-»sc ttyp-»t state & TS CARR ON) == 0 && 
286 (sc-»sc ttyp-»t cflag & CLOCAL) == 0) ( 
287 m freem(m); 
288 return (EHOSTUNREACH); 
289 ) 
290 ifq = &sc-»sc if.if snd; 
291 ip » mtod(m, struct ip *); 
292 if (sc-»sc if.if flags & SC NOICMP && ip-»ip p -- IPPROTO ICMP) ( 
293 m freem(m); 
294 return (ENETRESET); A XXX ? "7 
295 ) 
296 if (ip-»ip tos & IPTOS LOWDELAY) 
297 ifq = &sc-»sc fastq; 
298 s - splimp(); 
299 if (IF QFULL(ifq)) í 
300 IF DROP(ifq); 
301 m freem(m); 
302 splx(s); 
303 sc-»sc if.if oerrors-**; 
304 return (ENOBUFS); 
305 ) 
306 IF ENQUEUE(ifq, m); 
307 Sc-»sc if.if lastchange = time; 
308 if (sc-»sc ttyp-»t outq.c cc == 0) 
309 slstart(sc-»sc ttyp); 
310 splx(s); 
311 return (0); 
312.) 
if sl.c 


图 5-15 函数 sloutput 


差错 码 ENETRESET 指 示 分 组 因 决 策 而 被 丢弃 (相对 于 网 络 故 障 )。 我 们 在 第 11 章 会 看 到 除 
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了 在 本 地 产生 一 个 ICMP 报 文 外 ， 此 差错 简单 地 被 忽略 ， 在 这 种 情况 下 ， 一 个 差错 返回 给 发 送 
此 报 文 的 进程 。 
Net/2 在 这 种 情况 返回 一 个 0。 对 于 一 个 诊断 工具 ， 扣 ping 或 traceroute, 会 
出 现 这 种 情况 : 好 像 这 个 分 组 消失 了 ， 因 为 输出 操作 会 报告 成 功 完 成 。 
通常 ，ICMP 报 文 可 以 被 丢弃 。 对 于 正确 的 操作 ， 它 们 并 不 必要 ， 但 丢弃 它们 会 
造成 更 多 的 麻烦 ， 可 能 导致 不 佳 的 路 由 决定 和 较 差 的 性 能 ， 并 且 会 浪费 网 络 资源 。 
296-297 如果 在 输出 分 组 的 TOS 字 段 指 明 低 时 延 服务 (IPTOS_LOWDELRAY)， 则 输出 队列 改 
为 SC fastq, 


RFC 1700 和 RFC 1349 [Almquist 1992] 规 定 了 标准 协议 的 TOS 设 置 。 为 Telnet、 
Rlogin、FTP( 控 制 )、TFTP、SMTP( 命 令 阶 段 ) 和 DNS(UDP 查 询 ) 指 明了 低 时 延 服 务 。 
更 多 细节 见 卷 1 的 3.2 节 。 

在 以 前 的 BSD 有 版 本 中 ，ip_tos 不 由 应 用 程序 设置 。SLIP 了 驱动 程序 通过 检查 在 IP 分 
组 中 的 传输 首部 来 实现 TOS 排 队 。 如 果 发 现 FTP( 命 令 )、Telnet 或 Rlogin 痕 口 的 TCP 分 
组 ， 分 组 就 如 指明 了 IPTOS LOWDELAY 一 样 被 排队 。 很 多 路 由 器 仍然 这 样 ， 因 为 很 
多 这 些 交互 服务 的 实现 仍然 不 设置 ip_tos。 


298-312 现在 分 组 被 放 到 所 选择 的 队列 中 ， 接 口 统计 被 更 新 ， 并 且 ( 如 果 TTY 输 出 队列 为 
空 ) sloutput 调 用 slstart 来 发 起 对 此 分 组 的 传输 。 
如 果 接 口 队 列 满 ， 则 SLIP 增 加 if oerrors; 而 对 于 ether output， 则 不 是 

这 样 做 的 。 

不 像 以 太 网 输出 函数 (ether_output)，sloutput 不 为 输出 分 组 构造 一 个 数据 链 路 首 
部 。 因 为 在 SLIP 网 络 上 的 另 一 系统 在 串 行 链 路 的 另 一 端 ， 所 以 不 需要 硬件 地 址 或 一 个 协议 (如 
ARP) 在 IP 地 址 和 硬件 地 址 间 进 行 转换 。 协 议 标识 符 ( 如 以 太 网 类 型 字段 ) 也 是 多 余 的 ， 因 为 一 
个 SLIP 链 路 仅 承 载 IP 分 组 。 


5.3.5 slstart ğı 


除了 被 sloutput 调 用 外 ， 当 TTY 取 完 它 的 输出 队列 并 要 传输 更 多 的 字 市 时 ，TTY 设 备 
调用 slstart。TTY 子 系统 通过 一 个 clist 结 构 管理 它 的 队列 。 在 图 5-8 中 ， 输 出 clist 
t_outq 显 示 在 slstart 下 面 和 设备 的 t_oproc 函 数 的 上 面 。 slstart 把 字 刷 添 加 到 队列 中 ， 
而 +t_oproc 将 队列 取 完 并 传输 这 些 字 有 。 

国 数 sLstazrt 上 显示 在 图 $-16 中 。 

318-358 当 s1statt 国 数 被 调用 时 ，tp 指 向 设备 的 tty 结 构 。s1stazrt 的 主体 由 一 个 foz 
循环 构成 。 如 果 输 出 队列 ft_outd 不 空 ，s1start 调 用 设备 的 输出 国 数 t_oproc， 此 图 数 传 
输 设 备 所 能 接收 的 字 节 数 。 如 果 TTY 输 出 队列 中 剩余 的 字 节 超过 100 字 (SLIP_HINWAT) ， 
则 slstart 返 回 而 不 是 将 男 一 分 组 的 字 节 添加 到 队列 中 。 当 传输 完 所 有 字 市 ， 输 出 设备 产生 
一 个 中 断 ， 并 且 当 输出 列表 为 空 时 ，TTY 子 系统 调用 slstart。 

如 果 TTY 输 出 队列 为 空 ， 则 一 个 分 组 从 sc_fastq 中 退 队 ,或 者 ， 吞 sc_fastq 为 空 ， 则 
从 if_snd 队 列 中 退 队 ,这样 在 其 他 分 组 前 传输 所 有 交互 的 分 组 。 


112 


TCP/IP;:ÉÉR %2: 实现 


没有 标准 的 SNMP 变 量 来 统计 根据 TOS 字 上段 排 队 的 分 组 。 在 3$3 行 的 XXX 注释 表 


示 SLIP 驱 动 程序 在 if omcasts 中 统计 低 时 延 分 组 数 ， 而 不 是 多 播 分 组 数 。 


359-383 如 果 SLIP 接 口 带 有 BPF，slstart 在 任何 首部 压缩 前 为 输出 分 组 产生 一 个 备份 。 
这 个 备份 存储 在 bpfbuf 数 组 的 栈 中 。 


384-388 


如 果 人 允许 压缩 ， 并 且 分 组 包含 一 个 TCP 报 文 段 ， 则 sloutput 调 用 sl_ 


compress_tcp 来 压缩 这 个 分 组 。 得 到 的 分 组 类 型 被 返回 ， 并 与 IP 首 部 的 第 一 个 字 市 (29.13 
方 ) 进 行 逻辑 或 运算 。 

389-398 上 压缩 的 首部 现在 复制 到 BPF 首 部 ， 并 且 方 同 标 记 为 SLIPDIR_OUT。 完 整 的 BPF 分 
组 传 给 bpf_tap。 

483-484 如 果 for 循 环 终止 ， 则 slLstatrt 返 回 。 


318 void 
319 slstart(tp) 
320 struct tty *tp; 


321 ( 
322 
323 
324 
325 
326 
327 
328 
329 
330 


331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 


347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
357 
358 


if sl.c 


struct sl softc *sc = (struct sl softc *) tp-»t sc; 
struct mbuf *m; 

u_char *cp; 

struct ip *ip; 


int 


struct mbuf *m2; 
u_char bpfbuf[SLMTU + SLIP HDRLEN]; 


int 


len; 


extern int cfreecount; 


for (;3) í 


/* 

* If there is more in the output queue, just send it now. 

* We are being called in lieu of ttstart and must do what 

* it would. 

"E 

if (tp->t_outqg.c_ cc l= 0) { 
(*tp->t_oproc) (tp); 
if (tp->t_outq.c_cc > SLIP_HIWAT) 


return; 
} 
/* 
* This happens briefly when the line shuts down. 
vy 
if (sc == NULL) 
return; 
/* 
* Get a packet and send it to the interface. 
t 


s = splimp(); 
IF_DEQUEUE (&sc->sc_fastq, m); 


if (m) 

sc->sc_if.if_omcasts++; /* XXX *7 
else 

IF DEQUEUE(&SC-»SscC if.if snd, m); 
splx(s); 
if (m == NULL) 

return; 


图 5-16 pA slstart: 分 组 退 队 
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359 [* 

360 * We do the header compression here rather than in sloutput 
361 * because the packets will be out of order if we are using TOS 
362 * queueing, and the connection id compression will get 
363 * munged when this happens. 

364 *j 

365 if (sc-»sc bpf) ( 

366 /? 

367 * We need to save the TCP/IP header before it's 

368 * compressed. To avoid complicated code, we just 
369 * copy the entire packet into a stack buffer (since 
370 * this is a serial line, packets should be short 

371 * and/or the copy should be negligible cost compared 
372 * to the packet transmission time). 

373 */ 

374 struct mbuf *ml = m; 

375 u char *cp = bpfbuf + SLIP HDRLEN; 

316 len = 0; 

377 do { 

378 int mlen = ml-»m len; 

379 bcopy (mtod (m1, caddr t), cp, mlen); 

380 Cp += mlen; 

381 len += mlen; 

382 ) while (ml = ml->m next); 

383 ) 

384 if ((ip = mtod(m, struct ip *))-»ip p -- IPPROTO TCP) ( 
385 if (sc-»sc if.if flags & SC COMPRESS) 

386 *mtod(m, u_char *) |= sl, compress tcp(m, ip, 

387 &sc-»sc comp, 1); 
388 ) 

389 if (sc-»sc bpf) ( 

390 "ned 

391 * Put the SLIP pseudo-"link header" in place. The 
392 * compressed header is now at the beginning of the 
393 * mbuf. 

394 i 

395 bpfbuf[SLX DIR] = SLIPDIR OUT; 

396 bcopy (mtod(m, caddr t), &bpfbuf[SLX CHDR], CHDR, LEN); 
397 bpf tap(sc-»sc bpf, bpfbuf, len + SLIP HDRLEN); 

398 ) 

483 ) 

484 ) 


if sl.c 


图 5-16 (£x) 


slstart 的 下 一 部 分 (图 5-17) 在 系统 存储 器 容量 不 足 时 丢弃 分 组 ， 并 且 采 用 一 种 简单 的 
技术 来 丢弃 由 于 串 行 线 上 的 噪声 产生 的 数据 。 这 些 代 码 在 图 $-16 中 忽略 了 。 
399-409 如 果 系 统 缺 少 clist 结 构 ， 则 分 组 被 丢弃 ， 并 且 作 为 一 个 冲突 被 统计 。 通 过 不 断 地 
循环 而 不 是 返回 ，slstart 快 速 地 丢弃 所 有 剩余 的 排队 输出 的 分 组 。 由 于 设备 仍然 有 太 多 字 
节 为 输出 排队 ， 每 次 迭代 都 要 丢弃 一 个 分 组 。 高 层 协 议 必须 检测 丢失 的 分 组 并 重 传 它们 。 
410-418 如 果 TTY 输 出 队列 为 空 ， 则 通信 线路 可 能 有 一 段 时 间 空 ， 并 且 接 收 方 在 男 一 闹 
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可 能 接收 了 线路 噪声 产生 的 无 关 数 据 。slstart 在 输出 队列 中 放置 一 个 额外 的 SLIP END 字 
符 。 一 个 长 度 为 0 的 帧 或 一 个 由 线路 噪声 产生 的 帧 应 该 被 接收 方 SLIP 接 口 或 耻 协 议 丢 奔 。 


一 一 if sl.c 
399 Sc-»sc if.if lastchange = time; 
400 A 
401 * If system is getting low on clists, just flush our 
402 * output queue (if the stuff was important, it'll get 
403 * retransmitted). 
404 TE 
405 if (cfreecount < CLISTRESERVE + SLMTU) ( 
406 m freem(m); 
407 sc-»sc if.if collisions-«-*; 
408 continue; 
409 ) 
410 g” 
411 * The extra FRAME_END will start up a new packet, and thus 
412 * will flush any accumulated garbage. We do this whenever 
413 * the line may have been idle for some time. 
414 i 
415 if (tp-»t outq.c cc == 0) ( 
416 **SC-»5SC if.if obytes; 
417 (void) putc(FRAME END, &tp-»t outq); 
418 ) 

if sl.c 


图 5-17 函数 slstart: 资源 缺乏 和 线路 噪声 


图 5$-18 说 明了 这 个 丢弃 线路 噪声 的 技术 ， 它 来 源 于 由 Phil Karni ;HJRFC 1055。 在 图 5- 
18 中 ， 传 输 第 二 个 帧 结束 符 [END)， 因 为 线路 空 疝 了 一 段 时 间 。 由 噪声 产生 的 无 效 帧 和 这 个 
END 字 市 被 接收 系统 丢弃 。 


I — 5: iR — I — 2 ik] — 额外 的 
Ha [mD 
| 帧 1 > l 机 PE T, v 
(OK) EFN (OK) 
图 5-18 Karn 的 丢弃 SLIP 线 路 噪声 的 方法 
在 图 $-19 中 ， 线 路 上 没有 噪声 并 且 0 长 度 帧 被 接收 系统 丢弃 。 


< 一 空闲 一 额外 的 
Eu 4 Je 
< iyi 1 - < 帧 3 - 
(OK) (OK) 
e 


i 2 
(丢弃 的 ) 


图 5-19 无 噪声 的 Karn 方 法 


slstart 的 下 一 部 分 (图 5-20) 将 数据 从 一 个 mbuf 传 给 TTY 设 备 的 输出 队列 。 
419-467 在 这 部 分 的 外 部 while 循 环 对 链表 中 的 每 个 nbuf 执 行 一 次 。 中 间 的 while 人 循环 将 
数据 从 每 个 mbuf 传 给 输出 设备 。 内 部 的 while 循 环 不 断 递 增 cp， 直 到 它 找 到 一 个 END 或 ESC 
字符 。b_to_q 传 输 bp 到 cp 之 间 的 数据 。END 和 ESC 字 符 被 转 义 ， 并 且 两 次 通过 调用 putc 放 
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入 队列 。 中 间 的 循环 直到 mbuf 的 所 有 字 节 都 传 给 TTY 设 备 输出 队列 才 停 止 。 图 5-21 说 明了 对 
包含 了 一 个 SLIP END 字 符 和 一 个 SLIP ESC 字 符 的 mbuf 的 处 理 。 

bp 标记 用 b_to_q 传 输 的 mbuf 的 第 一 部 分 的 开始 ，cp 标 记 这 个 部 分 的 结束 。ep 标 记 这 个 
mbuf 中 数据 的 结束 位 置 。 


: if_sl.c 
419 while (m) { 
420 u_char *ep; 
421 cp = mtod(m, u_char *); 
422 ep - cp * m-»m len; 
423 while (cp < ep) { 
424 [* 
425 * Find out how many bytes in the string we can 
426 * handle without doing something special. 
427 "y 
428 u char *bp - cp; 
429 while (cp < ep) ( 
430 switch (*cp**) ( 
431 case FRAME ESCAPE: 
432 case FRAME END: 
433 --Cp; 
434 goto out; 
435 ) 
436 ) 
437 out: 
438 if (cp > bp) (t 
439 pF 
440 * Put n characters at once 
441 * into the tty output queue. 
442 *7 
443 if (b.to q((char *) bp, cp - bp, 
444 &tp-»t, outq)) 
445 break; 
446 Sc-»sc if.if obytes += cp - bp; 
447 ) 
448 | ges 
449 * If there are characters left in the mbuf, 
450 * the first one must be special.. 
451 * Put it out in a different form. 
452 vy 
453 if (cp « ep) ( 
454 if (putc(FRAME ESCAPE, &tp-»t outq)) 
455 break; 
456 if (Putc (*cp++ == FRAME ESCAPE ? 
457 TRANS FRAME ESCAPE : TRANS, FRAME END, 
458 &tp-»t outq)) ( 
459 (void) unputc(&tp-»t outq); 
460 break; 
461 ) 
462 Sc-»sc if.if obytes += 2; 
463 ) 
464 ) 
465 MFREE(m, m2); 
466 m - m2; 
467 ) 

if sl.c 


图 $-20 “” 国 数 sLstatrt ， 传 输 分 组 
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第 一 次 调用 b to qa 第 二 次 调用 b to q 第 三 次 调用 b to q 
putc(FRAME ESCAPE, ...) putc(FRAME ESCAPE, ...) 
putc(TRANS, FRAME END, ...) putc(TRANS FRAME ESCAPE, ...) 


图 $-21 单个 mbuf 的 SLIP 传 输 


如 果 b to 9q 或 putc 失 败 ( 即 ， 数 据 不 能 在 TTY 设 备 排 队 )， 则 break 导致 slstart 退 出 
内 部 while 循 环 。 这 种 失败 表示 内 核 clist 资 源 用 完 。 在 每 个 mbuf 被 复制 到 TTY 设 备 后 ， 或 者 
当 一 个 差错 发 生 时 ，mbuf 被 释放 ，m 增 加 到 链表 的 下 一 个 mbuf， 并 且 外 部 whi1le 循 环 继续 执 
行 直 到 链表 中 所 有 mbuf 被 处 理 。 

图 5-22 显 示 了 slstart 完 成 输出 帧 的 处 理 。 


- if_sl.c 
468 if (putc(FRAME END, &tp-»t outq)) { 
469 y 
470 * Not enough room. Remove a char to make room 
471 * and end the packet normally. 
472 * If you get many collisions (more than one or two 
473 * a day) you probably do not have enough clists 
474 * and you should increase "nclist" in param.c. 
475 */ 
476 (void) unputc(&tp-»t outq); 
477 (void) putc(FRAME END, &tp-»t outq); 
478 Sc-»sc if.if collisions-«-; 
479 ) else ( 
480 -*-SC-»SC if.if obytes; 
481 SC-»Sc if.if opackets-«-; 
i if sl.c 


图 5-22 函数 slstart : 帧 结束 处 理 


468-482 当 外 部 while 循 环 处 理 完 对 输出 队列 中 的 字 布 排队 时 ， 控 制 到 达 这 上 段 代 码 。 蝶 动 
程序 发 送 一 个 SLIP END 字 符 ， 来 终止 这 个 帧 。 

如 果 这 些 字 节 在 排队 时 发 生 差错 ， 则 输出 帧 无 效 ， 并 会 因为 “无 效 的 检验 和 或 “无 效 
的 长 度 ” 被 接收 系统 检测 出 来 。 

无 论 这 个 帧 是 不 是 因为 一 个 差错 而 终止 ， 如 果 END 字 符 没有 填充 到 输出 队列 中 ， 队 列 的 
最 后 一 个 字符 就 要 被 丢弃 并 且 slstart 将 使 这 个 帧 结束 。 这 保证 传输 了 一 个 END 字 御 。 这 
个 无 效 帧 在 目标 站 被 丢弃 。 


5.3.6 SLIP 分 组 丢失 


SLIP 接 口 提供 了 一 个 尽 最 大 努力 服务 的 好 例子 。 如 果 TTY 超 载 ， 则 SLIP 丢 弃 分 组 ， 在 分 
组 开始 传输 后 ， 如 果 资 源 不 可 用 ， 则 它 截断 分 组 ， 并 且 为 了 检测 和 丢弃 线路 噪声 插入 无 关 的 
空 分 组 。 对 以 上 的 每 一 种 情况 都 不 产生 差错 报 文 。SLIP 依 靠 卫 层 和 运输 层 来 检测 损坏 的 和 丢 
失 的 分 组 。 
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在 一 个 路 由 器 上 从 一 个 高 速 接口 例如 以 太 网 ， 发 送 帧 到 一 个 低速 的 SLIP 线 路 上 。 如 采 发 
送 方 不 能 意识 到 瓶颈 并 相应 调节 数据 速率 ， 则 会 有 大 比例 的 分 组 被 丢弃 。 在 25.11 证 我 们 会 看 
到 TCP 是 如 何 检测 并 对 此 啊 应 的 。 应 用 程序 使 用 一 个 无 流量 控制 的 协议 ， 如 UDP， 必 须 目 己 
识别 和 响应 这 种 情况 (习题 5.8)。 


5.3.7 SLIP 性 能 考虑 


一 个 SLIP 帧 的 MTU(SLMTU) 、clist 高 水 位 标记 (high-water mark)(SLIP HIWAT) 和 SLIP 的 
TOS 排 队 策略 都 是 用 来 设计 交互 通信 的 低速 串 行 链 ， 使 得 固有 的 时 延 最 小 。 

1) 一 个 小 的 MTU 能 够 改进 交互 数据 的 时 延 ( 如 敲 键 和 回 显 )， 但 有 损 批量 数据 传输 的 否 吐 
量 。 一 个 大 的 MTU 能 改进 批量 数据 的 吞吐 量 ， 但 增加 了 交互 时 延 。SLIP 链 路 的 另 一 个 
问题 是 键入 一 个 字符 就 要 有 40 字 市 的 开销 来 写 入 TCP 首 部 和 IP 首 部 的 信息 ， 这 就 增加 
了 通信 的 时 延 。 
解决 办 法 是 挑选 一 个 足够 大 的 MTU 来 提供 好 的 交互 啊 应 时 间 和 适当 的 批量 数据 吞吐 
量 ， 并 压缩 TCP/IP 首 部 来 减 小 每 个 分 组 的 负荷 。RFC 1144 [Jacobson 1990a] 摘 述 了 一 
个 压缩 方案 和 时 间 计 算 ， 它 为 一 个 典型 的 9600 b/s 异步 SLIP 链 路 选择 了 一 个 数值 为 296 
的 MTU 。 我 们 在 29.13 节 讨论 压缩 的 SLIP(CSLIP)。 卷 1 的 2.10 节 和 7.2 节 总 结 了 这 种 定 
时 考虑 ， 并 说 明了 在 SLIP 链 路 上 的 时 延 。 

2) 如 果 有 太 多 的 字 节 缓存 在 clist 中 (因为 SLIP HIWAT 设 置 得 太 高 ), TOS 排 队 会 受到 阻碍 ， 
因为 新 的 交互 式 通信 等 在 大 量 缓存 数据 的 后 面 。 如 果 SLIP 一 次 传 给 TTY 驱 动 程序 一 个 
字 节 (因为 SLIP_HIWAT 设 置 得 太 低 )， 设 备 为 每 个 字 市 调用 slstart， 并 在 每 个 字 市 
传输 后 线路 空闲 一 段 时 间 。 把 SLIP HIWAT 设 置 为 100 可 使 在 设备 排队 的 数据 量 最 小 化 ， 
并 且 减 小 了 TTY 子 系统 调用 slstart 的 频率 ， 大 约 每 100 字 符 必须 调用 slstart 一 次 。 

3) 如 前 所 述 ，SLIP 了 驱动 程 序 提供 了 TOS 排 队 ， 其 策略 是 先 从 sc_fastq 队 列 中 发 送 交 互 
式 通信 和 数据， 然后 在 标准 接口 队列 i£_snd 中 发 送 其 他 的 通信 数据 。 


5.3.8 slclose 了 函数 


为 了 完整 性 ， 我 们 给 出 函数 slclose 如 图 5-23 所 示 。 当 slattach 程 序 关 闭 SLIP 的 TTY 
设备 ， 并 且 中 断 对 远程 系统 的 连接 时 ， 调 用 它 。 
210 void 


211 slclose(tp) 
A12 struct tty *tb; 


if sl.c 


2135 1 

214 struct sl softc *sc; 

215 int S; 

216 ttywflush(tp); 

217 S = splimp(); /* actually, max(spltty, splnet) */ 
218 tp-»t line = 0; 

219 SC = (struct sl softc *) tp-»^t sc; 
220 if (sc != NULL) ( 

221 if down(&sc-»sc if); 

222 Sc-»sc ttyp = NULL; 

2423 tp-»t sc = NULL; 


图 $-23 图 数 sLclose 


118 TCP/IPz&R 32: 实现 





224 MCLFREE((caddr t) (sc-»sc ep - SLBUFSIZE)); 
222 Sc-»sc, ep = 0; 
226 Sc-»sc mp = 0; 
227 Sc-»sc buf = 0; 
228 ) 
229 splx(s); 
230 ) 
if sl.c 
图 5-23 (23) 


210-230 tp 指 辣 要 关闭 的 TTY 设 备 。slclose 清 除 任何 残留 在 串 行 设备 中 的 数据 ， 中 断 
TTY 和 网 络 处 理 ， 并 且 将 TTY 复 位 到 默认 的 线路 规程 。 如 果 TTY 设 备 被 连接 到 一 个 SLIP 接 口 ， 
则 关闭 这 个 接口 ， 在 这 两 个 结构 间 的 链接 被 切断 ， 与 此 接口 关联 的 mbuf 徐 被 释放 ， 并 且 指 向 
现在 被 丢弃 的 徐 的 指针 被 复位 。 最 后 ，sp1x 重 新 允许 TTY 中 断 和 网 络 中 断 。 


5.3.9 sltioctliRZi 


回忆 一 下 ，SLIP 在 内 核 中 有 两 种 作用 : 

。 作 为 一 个 网 络 接口 ， 

。 作 为 一 个 TTY 线 路 规程 。 

图 5-7 显 示 了 slioct1 处 理 通 过 一 个 插口 描述 符 发 送 给 一 个 SLIP 接 口 的 joct1l1 命 令 。 在 
4.4 节 中 ， 我 们 显示 了 ifioct1 是 如 何 调用 slioct1 的 。 我 们 会 看 到 一 个 处 理 ioct1 命 令 的 
相似 模型 ， 并 且 在 后 面 的 章节 中 会 讨论 到 。 

图 $-7 还 表示 了 sltioct1 处 理发 送 给 与 一 个 SLIP 网 络 接口 关联 的 TTY 设 备 的 ioct1 命 
令 。 这 个 被 sltioct1 识 别 的 命令 显示 在 图 $-24 中 。 


图 5-24 slLtioct1 命 令 


图 数 sLItioct1 显 示 在 图 $-25 中 。 










236 int g-ale 
237 sltioctl(tp, cmd, data, flag) 
238 struct tty *tp; 
239 int cmd; 
240 caddr t data; 
241 int flag; 
242 ( 
243 struct sl softc *sc = (struct sl softe *) tp-»t sc; 
244 switch (cmd) ( 
245 case SLIOCGUNIT: 
246 *(int *) data = sc-»sc if.if unit; 
247 break; 
248 default: 
249 return (-1); 
250 ) 
251 return (0); 
252 } 
if sl.c 


图 5-25 rpRüZsltioctl 
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236-252 tty 结 构 的 t_sc 指 针 指 向 关联 的 sl1_softc 结 构 。 这 个 SLIP 接 口 的 设备 号 从 
if_unit 被 复制 到 *data， 它 最 后 返回 给 进程 (17.5 节 )。 

当 系 统 被 初始 化 时 ，s1lattach 初 始 化 if_unit， 并且 当 slattach 程 序 为 此 TTY 设 备 
选择 SLIP 线 路 规程 时 ，slopen 初 始 化 t_sc。 因 为 一 个 TTY 设 备 和 一 个 SLIP sl_softc 结 构 
间 的 关系 是 在 运行 时 建立 的 ， 一 个 进程 能 通过 SLIOCGUNIT 命 令 发 现 所 选择 的 接口 结构 。 


9.4 环 回 接口 
任何 发 送 给 环 回 接口 (图 5-26) 的 分 组 立即 排 和 输入 队列 。 接 口 完 全 用 软件 实现 。 


if output 





OSI 协议 






图 5-26 环 回 设备 驱动 程序 


环 回 接口 的 if _output 指 向 的 函数 1ooutput ， 将 输出 分 组 放置 到 分 组 的 目的 地 址 指明 
的 协议 的 输入 队列 中 。 

我 们 已 经 看 到 当 设 备 被 设置 为 IFE SIMPLEX 时 ，ether_output 会 调用 Looutput 来 
排队 一 个 输出 广播 分 组 。 在 第 12 章 中 ， 我 们 会 看 到 多 播 分 组 也 可 能 以 这 种 方式 环 回 。 
looutput 显 示 在 图 5-27 中 。 

pp 

58 looutput(ifp, m, dst, rt) 

59 struct ifnet *ifp; 

60 struct mbuf *m; 


61 struct sockaddr *dst; 
62 struct rtentry *rt; 


63 (1 

64 int Ss, isr; 

65 struct ifqueue *ifq = 0; 

66 if ((m-»m flags & M PKTHDR) == 0) 

67 panic("looutput no HDR"); 

68 ifp-»if lastchange = time; 

69 if (loif.if bpf) ( 

70 f* 

74. * We need to prepend the address family as 
72 * a four byte field. Cons up a dummy header 
73 * to pacify bpf. This is safe because bpf 
74 * will only read from the mbuf (i.e., it won't 
75 * try to free it or keep a pointer a to it). 
76 sy 


图 5-27 函数 looutput 
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struct mbuf m0; 
u, int af = dst-»sa family; 


m0.m next - m; 
m0.m len = 4; 
m0.m data = (char *) &af; 


bpf mtap(loif.if bpf, &m0); 


m-»m pkthdr.rcvif - ifp; 


if (rt && rt-»rt flags & (RTF. REJECT | RTF. BLACKHOLE)) ( 
m freem(m); 
return (rt-»rt flags & RTF BLACKHOLE ? 0 : 
rt-»rt flags & RTF HOST ? EHOSTUNREACH : ENETUNREACH); 
) 
ifp-»if opackets-*-*; 
ifp-»if obytes += m-»m pkthdr.len; 
switch (dst-»sa family) ( 
case AF INET: 
ifq = &ipintrq; 
isr - NETISR IP; 
break; 


case AF ISO: 
ifq - &clnlintrq; 
isr = NETISR ISO; 
break; 


default: 
printf("lo$d: can't handle af$dWMn", ifp-»if unit, 
dst-»sa family); 
m freem(m); 
return (EAFNOSUPPORT); 
) 
s - splimp(); 
if (IF QFULL(ifq)) ( 
IF. DROP (ifq); 
m freem(m); 
splxí(ís); 
return (ENOBUFS); 
) 
IF ENQUEUE(ifq, m); 
schednetisr(isr); 
ifp-»if ipackets--; 
ifp-»if ibytes += m-»m pkthdr.len; 
splxí(s); 
return (0); 


if loop.c 
图 5-27 (£x) 


looutput 的 参数 同 ether_output 一 样 ， 因 为 都 是 通过 它们 的 ifnet 结 构 中 的 


if_output 指 针 直 接 调 用 的 。ifp， 指 向 输出 接口 的 i1fnet 结 构 的 指针 ; m， 要 发 送 的 分 
组 ; dst， 分 组 的 目的 地 址 ; zt， 路 由 信息 。 如 果 链 表 中 的 第 一 个 mbuf 不 包含 一 个 分 组 ， 
looutput 调 用 panic。 ; 

图 5-28 所 示 的 是 一 个 BPF 环 回 分 组 的 逻辑 格式 。 
69-83 ”驱动 程序 在 堆栈 上 的 m0 中 构造 BPF 环 回 分 组 ， 并 且 把 m0 连接 到 包含 原 始 分 组 的 mbuf 
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链表 中 。 注 意 m0 的 声明 不 同 往常 。 它 是 一 个 mbuf， 而 不 是 一 个 mbuf 指 针 。m0 的 m_data 指 问 
af ， 它 也 分 配 在 这 个 堆栈 中 。 图 5-29 显 示 了 这 种 安排 。 


Hb 原 分 组 





由 looutput 在 内 核 mbuf 
在 栈 上 分 配 池 中 分 配 


图 5-29 BPF 环 回 分 组 : mbuf 格 式 


looutput 将 目的 地 址 族 复制 到 af， 并 且 将 新 mbuf 链 表 传 递 给 bppf_mtap， 去 处 理 这 个 分 
组 。 与 bpf tap 相 比 ， 它 在 一 个 单独 的 连续 缓存 中 接收 这 个 分 组 而 不 是 在 一 个 mbuf 链 表 中 。 
如 图 中 注释 所 示 ，BPF 从 来 不 释放 一 个 链表 中 的 mbuf， 因 此 将 m0 ( 它 指向 栈 中 的 一 个 mbuf) 传 
给 bpf_mtap 是 安全 的 。 
84-89 looutput 剩 下 的 代码 包含 input 对 此 分 组 的 处 理 。 虽 然 这 是 一 个 输出 函数 ， 但 分 组 
被 环 回 到 输入 。 首 先 ，m- >m_pkthdr .rcvif 设 置 为 指向 接收 接口 。 如 果 调 用 方 提供 一 个 路 
由 项 ，l1ooutput 检 查 是 否 它 指示 此 分 组 应 该 被 拒绝 (RTF_REJECT) 或 直接 被 丢弃 
(RTF _ BLACKHOLE)。 通 过 丢弃 mbuf 并 返回 0 来 实现 一 个 黑洞 。 从 调用 者 看 来 就 好 像 分 组 已 经 
被 传输 了 。 要 拒绝 一 个 分 组 ， 如 果 路 由 是 一 个 主机 ， 则 looutput 返 回 EHOSTUNREACH; 如 
果 路 由 是 一 个 网 络 则 返回 ENETUNRERACH。 


备 种 RTF_xxx 标 志 在 图 18-25 中 描述 。 


90-120 ”然后 looutput 通 过 检查 分 组 目的 地 址 中 的 sa_fami1ly 来 选择 合适 的 协议 输入 队 
列 和 软件 中 断 。 接 着 把 识别 的 分 组 进行 排队 ， 并 用 schednetisr 来 调度 一 个 软件 中 断 。 


5.5 小 结 


我 们 讨论 了 两 个 剩 下 的 接口 ， 它 们 在 书 中 多 次 引用 : s10， 一 个 SLIP 接 口 ， 1o0， 标 准 的 
环 回 接口 。 

我 们 显示 了 在 SLIP 接 口 和 SLIP 线 路 规程 之 间 的 关系 ， 讨 论 了 SLIP 封 装 方法 ， 并 且 讨 论 了 
TOS 处 理 交互 式 通信 和 SLIP 驱 动 程序 的 其 他 性 能 考虑 。 

我 们 显示 了 环 回 接口 是 如 何 按 目 的 地 址 分 用 输出 分 组 及 将 分 组 放 到 相应 的 输入 队列 
中 去 。 
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为 什么 环 回 接口 没有 输入 函数 ? 

你 认为 为 什么 图 5-27 中 的 m0 要 分 配 在 堆栈 中 ? 

分 析 一 个 19 200 b/s 的 串 行 线 的 SLIP 特 性 。 对 于 这 个 线路 ，SLIP MTU 应 该 改变 吗 ? 
导出 一 个 根据 串 行 线 速率 选择 SLIP MTU 的 公式 。 

如 果 一 个 分 组 对 于 SLIP 输 入 缓存 太 大 ， 会 发 生 什么 情况 ? 

一 个 slinput 的 早期 版 本 ， 当 一 个 分 组 在 输入 缓存 洲 出 时 ， 不 将 SC_ERROR 置 位 。 
在 这 种 情况 下 如 何 检测 这 种 差错 ? 

在 图 4-31 中 le 被 下 标 为 itp->if_unit 的 Ile_softc 数 组 项 初始 化 。 你 能 想 出 另 一 
种 初始 化 1e 的 方法 吗 ? 

当 分 组 因为 网 络 瓶 颈 被 丢弃 时 ， 一 个 UDP 应 用 程序 如 何 知道 ? 
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6.1 引言 


本 章 讨论 Net/3 如 何 管 理 IP 地 址 信息 。 我 们 从 in ifaddr 和 sockaddr _ in 结构 开始 ， 它 
们 基于 通用 的 jfaddr 和 sockaddr 结 构 。 
本 章 其 余部 分 讨论 IP 地 址 的 指派 和 几 个 查询 接口 数据 结构 与 维护 IP 地 址 的 实用 函数 。 


6.1.1 IP3bHE 


虽然 我 们 假设 读者 熟悉 基本 的 Internet 编 址 系统 ， 仍 然 有 几 点 值得 指出 。 

在 了 P 了 模型 中 ， 地 址 是 指派 给 一 个 系统 (一 个 主机 或 路 由 器 ) 中 的 网 络 接口 而 不 是 系统 本 身 。 
在 系统 有 多 个 接口 的 情况 下 ， 系 统 有 多 重 初 始 地 址 ， 并 有 多 个 IP 地 址 。 一 个 路 由 器 被 定义 为 
有 多 重 初 始 地 址 。 如 我 们 所 看 到 的 ， 这 个 体系 特点 有 几 个 小 分 支 。 

IP 地 址 定义 了 5 类 。A、B 和 C 类 地 址 支持 单 播 通信 。D 类 地 址 支持 IP 多 播 。 在 一 个 多 播 通 
信 中 ， 一 个 单独 的 源 方 发 送 一 个 数据 报 给 多 个 目标 方 。D 类 地 址 和 多 播 协 议 在 第 12 章 说 明 。E 
类 地 址 是 试验 用 的 。 接 收 的 E 类 地 址 分 组 被 不 参与 试验 的 主机 丢弃 。 

我 们 强调 IP 多 播 和 硬件 多 播 间 的 区 别 是 重要 的 。 硬 件 多 播 的 特点 是 数据 链 路 硬件 用 来 将 帧 
传输 给 多 个 硬件 接口 。 有 些 网 络 硬件 ， 如 以 太 网 ， 支 持 数 据 链 路 多 播 。 其 他 硬件 可 能 不 支持 。 

IP 多 播 是 一 个 在 IP 系 统 内 实现 的 软件 特性 ， 将 分 组 传输 给 多 个 可 能 在 Internet 中 任何 位 置 
的 IP 地 址 。 

我 们 假设 读者 熟悉 IP 网 络 的 子 网 划分 (RFC 950 [Mogul and Postel 1985] $025 1828 33€), 
我 们 会 看 到 每 个 网 络 接 口 有 一 个 相关 的 子 网 掩 码 ， 它 是 判断 一 个 分 组 是 否 到 达 它 最 后 的 目的 
地 或 还 需要 被 转发 的 关键 。 通 常 ， 当 提 及 一 个 IP 地 址 的 网 络 部 分 时 ， 我 们 包括 任何 可 能 定义 
的 子 网 。 当 需要 区 分 网 络 和 子 网 时 ， 我 们 就 要 明确 地 指出 来 。 

环 回 网 络 ，127.0.0.0， 是 一 个 特殊 的 A 类 网 络 。 这 种 格式 的 地 址 是 不 会 出 现在 一 个 主机 的 
外 部 的 。 发 送 到 这 个 网 络 的 分 组 被 环 回 并 被 这 个 主机 接收 。 

RFC 1122 要 求 所 有 在 环 回 网 络 中 的 地 址 被 正确 地 处 理 。 因 为 环 回 接口 必须 指派 
一 个 地 址 ， 很 多 系统 选择 127.0.0.1 作 为 环 回 地 址 。 如 果 系 统 不 能 正确 识别 ， 像 
127.0.0.2 这 样 的 地 址 可 能 不 能 被 路 由 到 环 回 接口 而 被 传输 到 一 个 连接 的 网 络 ， 这 是 不 
允许 的 。 有 些 系统 可 能 正确 地 路 由 这 个 到 环 回 接口 的 分 组 ， 但 由 于 目标 地 址 与 地 址 
127.0.0.1 不 匹配 ， 分 组 被 丢弃 。 


图 18-2 显 示 了 一 个 Net/3 系 统 配 置 为 把 绝 接 收发 送 到 一 个 不 是 127.0.0.1 的 环 回 地 址 的 分 组 。 
6.1.2 ”IP 地址 的 印刷 规定 
我 们 通 第 以 扣 分 十 进 制 数 表示 法 来 显示 一 个 IP 地 址 。 图 6-1 列 出 了 每 类 IP 地 址 的 范围 。 
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0.0.0.0$1127.255.255.255 
128.0.0.0$1191.255.255.255 
192.0.0.0$/223.255.255.255 


| D | 224..0.0$/239.255.255.255 
240.0.0.051/247.255.255.255 


图 6-1 不 同 IP 地 址 类 的 范围 


对 于 我 们 的 有 些 例 子 ， 子 网 字段 不 按 一 个 字 市 对 齐 ( 即 ， 一 个 网 络 / 子 网 /主机 在 一 个 B 类 网 
络 中 分 为 16/11/5)。 从 点 分 十 进 制 数 表示 法 很 难 表 示 这 样 的 地 址 ， 因 此 我 们 还 是 用 方块 图 来 说 
明 IP 地 址 的 内 容 。 我 们 用 三 个 部 分 显示 每 个 地 址 : 网 络 、 子 网 和 主机 。 每 个 部 分 的 阴影 指示 
它 的 内 容 。 图 6-2 用 我 们 网 络 示 例 (1.14 市 ) 中 的 主机 sun 的 以 太 网 接口 来 同时 说 明 块 表示 法 和 点 
分 十 进 制 数 表示 法 。 
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图 6-2 可 选 的 IP 地 址 表示 法 


当地 址 的 一 个 部 分 不 是 全 为 0 或 1 时 ， 我 们 使 用 两 个 中 等 程度 的 阴影 。 有 两 种 中 
等 程度 的 阴影 ， 这 样 我 们 就 能 区 分 网 络 和 子 网 部 分 或 用 来 显示 如 图 6-31 所 示 的 地 址 
组 合 。 


6.1.3 主机 和 路 由 器 


在 一 个 Internet 上 的 系统 通常 能 划分 为 两 类 : 主机 和 路 由 器 。 一 个 主机 通常 有 一 个 网 络 接 
口 ， 并 且 是 一 个 IP 分 组 的 源 或 目标 方 。 一 个 路 由 器 有 多 个 网 络 接口 ， 当 分 组 向 它 的 目标 方 移 
动 时 将 分 组 从 一 个 网 络 转发 到 下 一 个 网 络 。 为 执行 这 个 功能 ， 路 由 器 用 各 种 专用 路 由 协议 来 
交换 关于 网 络 拓扑 的 信息 。IP 路 由 问题 比较 复杂 ， 在 第 18 章 开始 讨论 它们 。 

如 采 一 个 有 多 个 网 络 接口 的 系统 不 在 网 络 接口 间 路 由 分 组 ， 仍 然 叫 一 个 主机 。 一 个 系统 
可 能 既是 一 个 主机 又 是 一 个 路 由 器 。 这 种 情况 经 常 发 生 在 当 一 个 路 由 器 提供 运输 层 服务 如 用 


£6€* IP 编 HA 125 


于 配置 的 Telnet 访 问 ， 或 用 于 网 络 管理 的 SNMP 时 。 当 区 分 一 个 主机 和 路 由 器 间 的 意义 并 不 重 
要 时 ， 我 们 使 用 术语 系统 。 

不 谨慎 地 配置 一 个 路 由 器 会 干扰 一 个 网 络 的 正常 运转 ， 因 此 RFC 1122 规 定 一 个 系统 必须 
默认 为 一 个 主机 来 操作 ， 并 且 必 须 显 式 地 由 一 个 管理 员 来 配置 作为 一 个 路 由 器 操作 。 这 样 做 
是 不 鼓励 管理 员 将 通用 主机 作为 路 由 器 来 操作 而 没有 仔细 地 配置 。 在 Net/3 中 ， 如 果 全 局 整数 
ijpforwarding 不 为 0， 则 一 个 系统 作为 一 个 路 由 器 ， 如 有 果 ipforwarding 为 0( 默 认 )， 则 系 
统 作 为 一 个 主机 。 

在 Net/3 中 ， 一 个 路 由 器 通常 称 为 网 关 ， 虽 然 术 语 网 关 现 在 更 多 的 是 与 一 个 提供 应 用 层 路 
由 的 系统 相关 ， 如 一 个 电子 邮件 网 关 ， 而 不 是 转发 I1P 分 组 的 系统 。 我 们 在 本 书 中 使 用 术语 路 
由 姻 ， 并 假设 ijpforwarding 非 0。 在 编译 Net/3 内 核 期 间 ， 当 GATEWAY 被 定义 时 ， 我 们 还 
有 条 件 地 包括 所 有 代码 ， 它 们 将 ijpforwarding 定 义 为 1。 


6.2 代码 介绍 
图 6-3 所 列 的 两 个 头 文件 和 两 个 C 文 件 包 含 本 章 中 讨论 的 结构 定义 和 实用 图 数 。 
netinet/in.h Internet 地 址 定义 
netinet/in var.h | Internet 接 口 定 义 
netinet/in.c Internet 初 始 化 和 实用 函数 
netinet/if.c Internet 接 口 实 用 函数 


图 6-3 本 章 讨论 的 文件 






图 6-4 所 列 的 是 本 章 中 介绍 的 两 个 全 局 变量 。 


in ifaddr struct in ifaddr * in_ifaddr 结 构 列 表 的 首部 
in interfaces int 有 IP 能 力 的 接口 个 数 


图 6-4 在 本 章 中 介绍 的 全 局 变量 









6.3 ”接口 和 地 址 小 结 


在 本 章 讨 论 的 所 有 接口 和 地 址 结构 的 一 个 例子 配置 如 图 6-5 所 示 。 

图 6-5 显 示 了 我 们 的 三 个 接口 例子 : 以 太 网 接口 、SLIP 接 口 和 环 回 接口 。 它 们 都 有 一 个 链 
路 层 地 址 作为 地 址 列表 中 的 第 一 个 结 点 。 显 示 的 以 太 网 接口 有 两 个 IP 地 址 ，SLIP 接 口 有 一 个 
了 下 地 址 ， 并 且 环 回 接口 有 一 个 下地 址 和 一 个 OSI 地 址 。 

注意 所 有 的 卫 地 址 被 链接 到 in_ifaddqr 列 表 中 ， 并 且 所 有 链 路 层 地 址 能 从 ifnet_adqdrs 
数组 访问 。 

为 了 清楚 起 见 ， 图 6-5 没 有 画 出 每 个 faddr 结 构 中 的 指针 ifa_ifp。 这 些 指 针 回 指 包 含 
此 ifaddr 结 构 的 列表 的 首部 ifnet 结 构 。 

接 下 来 的 部 分 讨论 图 6-5 中 的 数据 结构 及 用 来 查看 和 修改 这 些 结构 的 IP 专 用 ioct1 命 令 。 
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图 6-5 接口 和 地 址 数据 结构 | 


6.4 sockaddr in 结构 


我 们 在 第 3 章 讨论 了 通用 的 sockaddr 和 ifaddr 结 构 。 现 在 我 们 显示 IP 专 用 的 结构 : 
sockaddr in 和 in ifaddr。 在 Internet 域 中 的 地 址 存放 在 一 个 sockaddr_in 结 构 。 
68-70 由 于 历史 原因 ，Net/3 以 网 络 字 节 序 将 Internet 地 址 存储 在 一 个 jn_addr 结 构 中 。 这 个 
结构 只 有 一 个 成 员 s_addr， 它 包含 这 个 地 址 。 虽 然 这 是 多 余 和 混乱 的 ,但 在 Net/3 中 一 直 保 
持 这 种 组 织 方式 。 

106-112 sin len 总 是 16( 结 构 sockaddqr_in 的 大 小 )， 并 且 sin family 为 AF_INET。 
sin_port 是 一 个 网 络 字 节 序 ( 不 是 主机 字 节 序 ) 的 16 位 的 值 ， 用 来 分 用 运输 层 报 文 。 
sin addz 标 识 一 个 32 位 的 Internet 地 址 。 

图 6-6 显 示 了 sockaddr in 的 成 员 sin port, sin addr 和 sin zero 覆盖 sockaddr 
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的 成 员 sa_data。 在 Internet 域 中 ，sin_zero 未 用 , 但 必须 由 全 0 字 节 组 成 (2.7 市 )。 将 它 
追加 到 sockaddr_in 结 构 后 面 、 以 得 到 与 一 个 sockaddr 结 构 一 样 的 长 度 。 


in.h 
68 struct in addr + 
69 u long s addr; /* 32-bit IP address, net byte order */ 
70 Jj: 
106 struct sockaddr in ( 
107 u_char sin len; /* sizeof (struct sockaddr in) = 16 */ 
108 u_char sin family; /* AF.INET */ 
109 u short sin port; /* 16-bit port number, net byte order */ 
110 struct in addr sin addr; 
111 char sin zero[8]; /* unused */ 
LLA ， 
in.h 


图 6-6 结构 sockaddr in 


通常 ， 当 一 个 Internet 地 址 存储 在 一 个 u_Long 中 时 ， 它 以 主机 字 节 序 存 储 ， 以 便于 地 址 
的 压缩 和 位 操作 。 在 in_addz 结 构 (图 6-7) 中 的 s_adqdqr 是 一 个 值得 注意 的 例外 。 
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47r 
图 6-7 一 个 sockaddr in 结构 (省 略 sin_) 的 组 织 


6.5 in ifaddr 结 构 


图 6-8 显 示 了 为 Internet 协 议定 义 的 接口 地 址 结构 。 对 于 每 个 指派 给 一 个 接口 的 IP 地 址 ， 分 
配 了 一 个 in_ifaddr 结 构 ， 并 且 添 加 到 接口 地 址 列表 中 和 IP 地 址 全 局 列表 中 (图 6-5)。 
41-45 in ifaddr 开 始 是 一 个 通用 接口 地 址 结构 ia_ifa， 跟着 是 IP 专 用 成 员 。ifaddr 结 
构 显 示 在 图 3-15 中 。 两 个 宏 ia ifp 和 ia_flags 简 化 了 对 存储 在 通用 ifaddr 结 构 中 的 接口 
指针 和 接口 地 址 标志 的 访问 。ia_next 维 护 指派 给 任意 接口 的 所 有 Internet 地 址 的 链接 列表 。 
这 个 列表 独立 于 每 个 接口 关联 的 链 路 层 ifaddr 结 构 列 表 ， 并 且 通 过 全 局 列表 in_ifadadr 来 
访问 。 
46-54 ”其余 的 成 员 ( 除 了 ia_multiaddrs) 显 示 在 图 6-9 中 ， 它 显示 了 在 我 们 的 B 类 网 络 例子 
中 sun 的 三 个 接口 的 相应 值 。 地 址 按 主 机 字 节 序 以 u_1l1ong 变 量 存 储 ， 变量 in_addr 和 
sockaddr _in 按 照 网 络 字 节 序 存储 。sun 有 一 个 PPP 接 口 ， 但 显示 在 本 表 中 的 信息 对 于 一 个 
PPP 或 SLIP 接 口 是 一 样 的 。 
55-56 结构 in_ ifaddz 的 最 后 一 个 成 员 指向 一 个 in_multi 结 构 的 列表 (12.6 节 )， 其 中 每 
项 包含 与 此 接口 有 关 的 一 个 IP 多 播 地 址 。 
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in var.h 
41 struct in ifaddr ( 
42 Struct  ifaddr ia ifa; /* protocol-independent info lai 4 
43 $define ia ifp ia ifa.ifa_ifp 
44 #define ia_flags ia_ifa.ifa_flags 
45 struct in_ifaddr *ia_next; /* next internet addresses list */ 
46 u long ia net; /* network number of interface */ 
47 u long ia netmask; /* mask of net part "y 
48 u long ia subnet; /* subnet number, including net */ 
49 u long ia, subnetmask; /* mask of subnet part Bé i 
50 struct in_addr ia netbroadcast; /* to recognize net broadcasts  */ 
51 struct  sockaddr in ia addr; /* space for interface name *J 
52 struct  sockaddr in ia dstaddr; /* space for broadcast addr "y 
53 $define ia broadaddr ia dstaddr 
54 struct  sockaddr in ia, sockmask; /* space for general netmask "y 
55 struct in multi *ia multiaddrs; /* list of multicast addresses  */ 
56 ); 

in var.h 





图 6-8 结构 in ifaddr 


ia, addr 
127.0.0.1 
ia net u. long | eC 
140.252.0.0 .252.0. 127.0.0.0 
255.255.0.0 .255.0. 255.0.0.0 
ia subnet u_long [ | | | Ea | [| | | 网 络 和 子 网 号 
140.252.13.32 ou... 127.0.0.0 


ia_subnetmask loc — MEME 本 到 | 0 050900966 


255.255.255.224 255.0.0.0 


ia netbroadcast|in. addr | | oam ER [ NE ; 
140.252.255.255 T2720 20 AT MAEA 


ia broadaddr Sockaddr. in | | B 
140.252.13.63 定 同 广播 地 址 


ia_dstaddr sockaddr_in IIT ej ductae 目的 地 址 . 
140.252.1.183 127.0.0.1 


ia_sockmask |sockadar_in | PAM | NENNEN 俯 i。=ubnetcnasr 


255.255.255.224 — 255.255.255.0 255.0.0.0 但 是 用 网 络 字 节 序 





图 6-9 _ sun 上 的 以 太 网 、PPP 和 环 回 in_ifaddr 结 构 


6.6 地 址 指派 


在 第 4 章 中 ， 我 们 显示 了 当 接 口 结构 在 系统 初始 化 期 间 被 识别 时 的 初始 化 。 在 Internet 协 议 
能 通过 这 个 接口 进行 通信 前 ， 必 须 指派 一 个 IP 地 址 。 一 旦 Net/3 内 核 运 行 ， 程 序 i£fconfig 就 
配置 这 些 接 口 ，ifconfig 通 过 在 某 个 插口 上 的 ijoct1 系 统 调用 来 发 送 配 置 命 令 。 这 通常 通 
过 /etc/netstart shell 脚 本 来 实现 ， 这 个 脚本 在 系统 引导 时 执行 。 

图 6-10 显 示 了 本 章 中 讨论 的 joct1 命 令 。 命 令 相 关 的 地 址 必须 是 此 命令 指定 插口 所 文 持 
的 地 址 族 类 ( 即 ， 你 不 能 通过 一 个 UDP 插 口 配置 一 个 OSI 地 址 )。 对 于 IP 地 址 ，ioct1 命 令 在 一 
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个 UDP 插口 上 发 送 。 






















获得 接口 地 址 
获得 接口 网 络 掩 码 
获得 接口 目标 地 址 
获得 接口 广播 地 址 
设置 接口 地 址 






SIOCGIFADDR 
SIOCGIFNETMASK 
SIOCGIFDSTADDR 
SIOCGIFBRDADDR 
SIOCSIFADDR 


struct ifreq * in control 









struct ifreq * in control 














struct ifreq * in control 










struct ifreq * in control 








struct ifreq * in control 

















SIOCSIFNETMASK struct ifreq * in control | 设置 接口 网 络 掩 码 
SIOCSIFDSTADDR struct ifreq * in control 设置 接口 目标 地 址 
SIOCSIFBRDADDR struct ifreq * in control 设置 接口 广播 地 址 






SIOCDIFADDR struct ifreq * in control | 删除 接口 地 址 
SIOCAIFADDR struct in aliasreq * in control 添加 接口 地 址 


图 6-10 接口 ioct1 命 令 


n Ii 





if ioctl 





图 6-11 本 章 中 说 明 的 ioct1 国 数 
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获得 地 址 信息 的 命令 从 SIOCG 开 始 ， 设 置地 址 信息 的 命令 从 SITIOCS 开 始 。SIOC 代 表 
socket ioct1，G 代 表 get， 而 S 代 表 set。 

在 第 4 章 中 ， 我 们 看 到 了 5 个 与 协议 无 关 的 ioct1 命 令 。 图 6-10 中 的 命令 修改 一 个 接口 的 
相关 地 址 信息 。 由 于 地 址 是 特定 协议 使 用 的 ， 因 此 ， 命 令 处 理 是 与 协议 相关 的 。 图 6-11 强 调 
了 与 这 些 命令 关联 的 ioct1 相 关 畏 数 。 


6.6.1 ifioctle A 


如 图 6-11 所 示 ，ifioct1 将 协议 无 关 的 ioct1 命 令 传递 给 此 插口 关联 协议 的 pr_usrred 
国 数 。 将 控制 交 给 udap_usrzegd， 并 且 又 立即 传 给 in_contzrol， 在 in_contzol 中 进行 大 
部 分 的 处 理 。 如 果 在 一 个 TCP 插 口上 发 送 同 样 的 命令 ， 控 制 最 后 也 会 到 达 in_control。 图 
6-12 再 次 显示 了 ifioct1 中 的 daefault 人 代码 ， 第 一 次 显示 在 图 4-22 中 。 


447 default: y 
448 if (so-»so. proto == 0) 
449 return (EOPNOTSUPP); 
450 return ((*so-»so proto-»pr usrreq) (so, PRU CONTROL, 
451 cmd, data, ifp)); 
452 ) | 
453 return (0); 
454 ) 
if.c 


图 6-12 Hiltifioctl: 特定 协议 的 命令 


447-454 函数 将 图 6-10 中 所 列 ioct1l 命 令 的 所 有 相关 数据 传 给 与 请 求 指定 的 插口 相关 联 的 
协议 的 用 户 请 求 函数 。 对 于 一 个 UDP 插 口 ， 调 用 udp_usrreq。23.10 市 讨论 udp_usrreq 哺 
数 的 细节 。 现 在 ， 我 们 仅 需 要 查看 udp_usrreq 中 的 PRU_CONTROL 人 代码 : 


if (req sz PRU CONTROL) 
return (in control(so, (int)m, (caddr t)addr, (struct ifnet *)control)); 


6.6.2 in control 


图 6-11 显 示 了 通过 soo ioct1 中 的 aefault 或 ifioct1 中 的 与 协议 相关 的 情况 ， 控 制 
能 到 达 in _ control。 在 这 两 种 情况 中 ，udp_usrreq 调 用 in _control， 并 返回 
in control 的 返回 值 。 图 6-13 显 示 了 in_control。 

132-145 so 指向 这 个 ioct1 命 令 ( 由 第 二 个 参数 cmd 标 识 ) 指 定 的 插口 。 第 三 个 参数 data 指 
向 命令 所 用 或 返回 的 数据 (图 6-10 的 第 二 列 )。 最 后 一 个 参数 ifp 为 空 (来 自 soo_ioct1 的 无 接 
口 ioct1) 或 指向 结构 ifreq 或 jn aliasreq 中 命名 的 接口 (来 自 ifioct1 的 接口 oct1)。 
in control 初 始 化 i fr 和 ifra 来 访问 作为 一 个 freq 或 ijn_aliasreq 结 构 的 data。 
146-152 如 果 ifp 指 向 一 个 ifnet 结 构 ， 这 个 for 人 循环 找到 与 此 接口 关联 的 Internet 地 址 列 
表 中 的 第 一 个 地 址 。 如 果 发 现 一 个 地 址 ，ia 指 向 它 的 in_ifaddar 结 构 ;， 人 否则 ia 为 空 。 

若 ifp 为 空 ，cmd 就 不 会 匹配 第 一 个 switch 中 的 任何 情况 ， 或 第 二 个 switch 中 任何 非 
默认 情况 。 在 第 二 个 switch 中 的 aefault 情 况 中 ， 当 ifp 为 空 时 ， 返 回 EBOPNOTSUPP。 
153-330 in control 中 的 第 一 个 switch 确 保 在 第 二 个 switch 处 理 命令 之 前 每 个 命令 的 
前 提 条 件 都 满足 。 在 后 面 的 章节 会 单独 说 明 各 个 情况 。 
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132 in control(so, cmd, data, ifp) m 
133 struct socket *so; ` 

134 int cmd; 

135 caddr t data; 

136 struct ifnet *ifp; 








Ln i 
138 struct ifreq *ifr - (struct ifreq *) data; 
139 struct in.ifaddr *ia s Q; 
140 struct ifaddr *ifa; 
141 struct in ifaddr *oia; 
142 Struct in aliasreq *ifra - (struct in aliasreq *) data; 
143 struct sockaddr in oldaddr; 
144 int error, hostIsNew, maskIsNew; 
145 u.long i; 
146 p” 
147 * Find address for this interface, if it exists. 
148 */ 
149 ` LE Hifp) 
150 for (ia = in ifaddr; ia; ia = ia-»ia next) 
151 if (ia-»ia ifp -- ifp) 
152 break; 
153 switch (cmd) { 
2.0. 0 eatablish preconditions 
218 ) 
219 switch (cmd) ( 
326 default: 
327 if (fp == © |] ifpo-»1f ioctl se 0) 
328 return (EOPNOTSUPP); 
329 return ((*ifp-»if ioctl) (ifp, cmd, data)); 
330 ) 
331 return (0); 
3232 j 


in.c 
图 6-13 畏 数 in_control 


如 果 在 第 二 个 switch 中 的 default 情 况 被 执行 ，ifp 指 向 一 个 接口 结构 ， 并 且 如 果 接 
口 有 一 个 i£f ioct1l 函 数 ， 则 in control 将 ioct1l 命 令 传 给 这 个 接口 进行 设备 的 特定 处 理 。 
Net/3 不 定义 任何 会 被 default 情 况 处 理 的 接口 命令 。 但 是 ,一 个 特定 设备 的 驱 
动 程序 可 能 会 定义 它 自己 的 接口 Loct1l 命 令 ， 并 通过 这 个 case 来 处 理 它 们 。 
331-332 我们 会 看 到 这 个 switch 语 句 中 的 很 多 情况 都 直接 返回 了 。 如 果 控 制 落 到 两 个 
switch 语 句 外 ， 则 in_control 返 回 0。 第 二 个 switch 中 有 几 个 case 执 行 了 跳出 语句 。 
我 们 按照 下 面 的 顺序 查看 这 个 接口 ioct1 命 令 : 
。 指派 一 个 地 址 、 网 络 掩 码 或 目标 地 址 ，; 
。 指派 一 个 广播 地 址 ; 


132 TCP/IPzÉ& %2: 实现 


。 取 回 一 个 地 址 、 网 络 掩 码 、 目 标 地 址 或 广播 地 址 ; 

。 给 一 个 接口 指派 多 播 地 址 ， 

。 删除 一 个 地 址 。 

对 于 每 组 命令 ， 在 第 一 个 switch 语 句 中 进行 前 提 条 件 处 理 ， 然 后 在 第 二 个 switch 语 名 
中 处 理 命令 。 


6.6.3 前提 条 件 : SIOCSIFADDR、SIOCSIFNETMASK 和 SIOCSIFDSTADDR 


图 6-14 显 示 了 对 SIOCSIFADDR、SIOCSIFNETMASK 和 和 SIOCSIFDSTADDR 的 前 提 条 件 
检 M, o 


166 case SIOCSIFADDR: eT 

167 case SIOCSIFNETMASK: 

168 case SIOCSIFDSTADDR: 

169 if ((so-»so state & SS PRIV) -- 0) 

170 return (EPERM); 

171 if (ifp == O0) 

172 panic("in, control"); 

123 if (ia == (struct in.ifaddr *) O0) ( 

174 oia = (struct in ifaddr *) 

175 malloc(sizeof *oia, M IFADDR, M WAITOK); 

176 if (oia -- (struct in ifaddr *) NULL) 

177 return (ENOBUFS); 

178 bzero((caddr t) oia, sizeof *oia); 

179 if (iá = in.ifaddr) { 

180 : for (; ia->ia next; ia = ia-»ia next) 

181 continue; 

182 ia-»ia next = oia; 

183 ) else 

184 in ifaddr = oia; 

185 ia - oia; 

186 if (ifa = ifp-»if.addrlist) ( 

187 for (; ifa-»ifa next; ifa = ifa-»ifa next) 

188 continue; 

189 ifa-»ifa next = (struct ifaddr *) ia; 

190 ) else 

191 ifp-»if addrlist = (struct ifaddr *) ia; 

192 ia-»ia ifa.ifa addr = (struct sockaddr *) &ia-»ia addr; 

193 ia-»ia ifa.ifa dstaddr 

194 = (struct sockaddr *) &ia-»ia dstaddr; 

195 ia-»ia ifa.ifa netmask 

196 = (struct sockaddr *) &ia-»ia  sockmask; 

197 ia-»ia sockmask.sin len = 8; 

198 if (ifp-»if flags & IFF BROADCAST) ( 

199 ia-»ia broadaddr.sin len = sizeof(ia-»ia addr); 

200 ia-»ia broadaddr.sin family - AF INET; 

201 ) 

202 ia-»ia ifp = ifp; 

203 if (ifp != &loXtf) 

204 in interfaces--*; 

205 ) 

206 break; . 
n.c 


图 6-14 Kğrin control: 地 址 指派 
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1. 仅 用 于 超级 用 户 
166-172 如果 这 个 插口 不 是 由 一 个 超级 用 户 进 程 创建 的 ， 这 些 命 令 被 禁止 ， 并且 in_ 
control 返 回 EPERM。 如 果 此 请 求 没 有 关联 的 接口 ， 内 核 调 用 panic。 由 于 如 果 ifioct1l 不 
能 找到 一 个 接口 ， 它 就 返回 (图 4-22)， 因 此 ，panic 从 来 不 会 被 调用 。 

当 一 个 超级 用 户 进程 创建 一 个 插口 时 ，socreate( 图 15-16) 设 置 标志 SS PRIV, 

因为 这 里 的 检验 是 针对 标志 而 不 是 有 效 的 进程 用 户 ID 的 ， 所 以 一 个 设置 用 户 ID 的 根 

进程 能 创建 一 个 插口 ， 并 且 放 齐 它 的 超级 用 户 权限 ， 但 仍然 能 发 送 有 特权 的 ioct1l 

命令 。 

2. 分 配 结构 
173-191 如 果 ia 为 空 ， 命 令 请 求 一 个 新 的 地 址 。in_control 分 配 一 个 jn_ifaddr 结 构 ， 
用 bzero 清 除 它 ， 并 且 将 它 链 接 到 系统 
et 


if addrlist/lXrh, 
3. 初始 化 结构 


192-206 代码 的 下 一 部 分 初始 化 
in_ifadqdr 结 构 。 首 先 ， 在 此 结构 的 
ifaddr 部 分 的 通用 指针 被 初始 化 为 指 
向 结构 in_ifaddr 中 的 结构 
sockaddr in。 必要 时 ， 此 函数 还 初 
始 化 结构 ia sockmask 和 
ia broadaddr。 图 6-15 说 明了 初始 化 
后 的 结构 in ifaddr, 

202-206 最 后 ，in control 建 立 从 in ifaddr 到 此 接口 的 ifnet 结 构 的 回 指 指针 。 

Net/3 在 in_intezfaces 中 只 统计 非 环 回 接口 。 











ifaddr() 









in ifaddr() 





6-15 Win control 初 始 化 后 的 一 个 in_ifaddr 结 构 






6.6.4 地 址 指派 : SIOCSIFADDR 


前 提 条 件 处 理 代 码 保证 ia 指向 一 个 要 被 SIOCSIFRADDR 命 令 修改 的 in_ifaddr 结 构 。 图 
6-16 显 示 了 in control 第 二 个 switch 中 处 理 这 个 命令 的 执行 代码 。 


in.c 
259 Case SIOCSIFADDR: 
260 returH (ib.ifinmit(ifp, là, 
261 (Struct sockaddr in *) &ifr-»ifr.addr, 1)); ; 
In.c 


图 6-16 Kýrin control: 地 址 指派 
159-261 in ifinit 完 成 所 有 的 工作 。IP 地 址 包含 在 ifreq 结 构 (ifr_addr) 里 传递 给 
213 LL LAL C, 
6.6.5 in ifinit 函 数 


in_ifinit 的 主要 步骤 是 : 
。 将 地 址 复制 到 此 结构 并 将 此 变化 通知 硬件 ， 
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。 忽略 原 地 址 配置 的 任何 路 由 ， 

。 为 这 个 地 址 建立 一 个 子 网 掩 码 ， 

。 建立 一 个 默认 路 由 到 连接 的 网 络 (或 主机 )， 

。 将 此 接口 加 入 所 有 主机 组 。 

从 图 6-17 开 始 分 三 个 部 分 讨论 这 段 代码 。 
353-357 in_ifinit 的 四 个 参数 为 : ifp， 指 向 接口 结构 的 指针 ; ia， 指 向 要 改变 的 
in_ifaddr 结 构 的 指针 ，sin， 指 向 请 求 的 IP 地 址 的 指针 ;scrub， 指 示 这 个 接口 如 果 存 在 
路 由 应 该 被 忽略 。i 保 存 主 机 字 市 序 的 IP 地 址 。 


353 in ifinit(ifp, ia, sin, scrub) Mid 

j54 struct ifnet *ifp; 

355 struct in ifaddr *ia; 

356 struct sockaddr in *sin; 

357 int scrub; 

358 ( 

359 u long i = ntohl(sin-»sin addr.s addr); 

360 struct sockaddr in oldaddr; 

361 int s = splimp(), flags = RTF UP, error, ether output(); 

362 oldaddr = ia-»ia, addr; 

363 ia-»ia  addr = *sin; 

364 p" 

365 * Give the interface a chance to initialize 

366 * if this is its first address, 

367 * and to validate the address if necessary. 

368 v" 

369 if (ifp-»if ioctl && 

370 (error = (*ifp-»if ioctl) (ifp, SIOCSIFADDR, (caddr t) ia))) ( 

371 splx(s); 

372 ia-»ia addr = oldaddr; 

373 return (error); 

374 ) 

375 if (ifp-»if output == ether output) { /* XXX: Another Kludge */ 

376 ia-»ia ifa.ifa rtrequest = arp rtrequest; 

377 ia-»ia ifa.ifa flags |= RTF. CLONING; 

378 ) 

379 splx (s); 

380 it (scrub) ( 

381 ia-»ia ifa.ifa addr = (struct sockaddr *) &oldaddr; 

382 in ifscrub(ifp, ia); 

383 ia-»ia ifa.ifa addr = (struct sockaddr *) &ia-»ia addr; 

384 ) ; 
1n.c 


图 6-17 函数 in ifinit: 地 址 指派 和 路 由 初始 化 


1. 指派 地 址 并 通知 硬件 
358-374 in_control 将 原来 的 地 址 保存 在 ol1Gaddr 中 ， 当 发 生 差错 时 ， 必 须 恢复 它 。 如 
果 接 口 定 义 了 一 个 if_ioct1 图 数 ， 则 in_contzol 调 用 它 。 相 同 接口 的 三 个 函数 
leioct1l、slioct1 和 1loioct1 在 下 一 节 讨 论 。 如 果 发 生 差错 ， 人 恢复 原来 的 地 址 ， 并 且 
in controljhl, 

2. 以 太 网 配置 
375-378 对 于 以 太 网 设备 ，arp_rtrequest 作 为 链 路 层 路 由 函数 被 选择 ， 并 且 设 置 
RTF_CLONING 标 志 。arp rtrequest 在 21.13 市 讨论 ， 而 RTF_CLONING 在 19.4 布 的 最 后 
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讨论 。 如 XXX 注释 所 建议 ， 在 此 加 入 代码 以 避免 改变 所 有 以 太 网 驱动 程序 。 
3. 忽略 原来 的 路 由 
379-384 如 果 调 用 者 要 求 已 存在 的 路 由 被 清除 ， 原 地 址 被 重新 连接 到 ifa_addr， 同 时 
in _ ifscrub 找 到 并 废除 任何 基于 老 地 址 的 路 由 。in_ifscrub 返 回 后 ， 新 地 址 被 恢复 。 
in_ifinit 显 示 在 图 6-18 中 的 部 分 构造 网 络 和 子 网 掩 码 。 


385 if (IN CLASSA(i)) id 
386 ia-»ia, netmask = IN CLASSA NET; 

387 else if (IN CLASSB(i)) 

388 ia-»ia netmask = IN CLASSB NET; 

389 else 

390 ia-»ia netmask = IN CLASSC NET; 

391 f" 

392 * The subnet mask usually includes at least the standard network part, 
393 * but may may be smaller in the case of supernetting. 

394 * If it is set, we believe it. 

395 *J 

396 if (ia-»ia,  subnetmask == 0) ( 

397 ia-»ia, subnetmask = ia-»ia netmask; 

398 ia-»ia, sockmask.sin addr.s addr = htonl(ia-»ia, subnetmask); 

399 ) else 

400 ia-»ia netmask &- ia-»ia subnetmask; 

401 ia-»ia net = i & ia-»ia netmask; 

402 ia-»ia subnet = i & ia-»ia subnetmask; 

403 in socktrim(&ia-»ia, sockmask); iss 


图 6-18 函数 in ifinit; 网 络 和 子 网 掩 码 


4. 构造 网 络 掩 码 和 默认 子 网 掩 码 
385-400 根据 地 址 是 一 个 A 类 、B 类 或 C 类 地 址 ， 在 ia_netmask 中 构造 了 一 个 尝试 性 网 络 
掩 码 。 如 果 这 个 地 址 没有 子 网 掩 码 ，ia subnetmaskflla sockmaskJk 9) tnit A 
ia netmask 中 的 尝试 性 掩 码 。 

如 果 指 定 了 一 个 子 网 ，in_ifinit 将 这 个 尝试 性 网 络 掩 码 和 这 个 已 存在 的 子 网 掩 码 进行 
逻辑 与 运算 来 获得 一 个 新 的 网 络 掩 码 。 这 个 操作 可 能 会 清除 该 尝试 性 网 络 掩 码 中 的 一 些 1 CE 
从 来 不 设置 0， 因 为 0 与 任何 值 进行 逻辑 与 都 得 到 0)。 在 这 种 情况 下 ， 网 络 掩 码 比 所 考虑 的 地 
址 类 所 期 望 的 要 少 一 些 1。 


这 叫 作 超级 联网 ， 它 在 RFC 1519 [Fuller et al. 1993] 中 做 了 描述 。 一 个 超级 网 络 
是 几 个 A 类 、B 类 或 C 类 网 络 的 一 个 群 组 。 卷 1 的 10.8 节 也 讨论 了 超级 联网 。 


一 个 接口 默认 配置 为 不 划分 子 网 ( 即 网 络 和 子 网 的 掩 码 相 同 )。 一 个 显 式 请 求 ( 用 
SIOCSIFNETMASK 或 SIOCAIFADDR) 用 来 允许 子 网 划分 (或 超级 联网 )。 

5. 构造 网 络 和 于 网 数量 
401-403 网 络 和 子 网 数量 通过 网 络 和 子 网 掩 码 从 新 地 址 中 获得 。 尔 数 in_socktrim 通 过 查 
找 掩 码 中 包含 1 的 最 后 一 个 字 节 来 设置 in_sockmask( 是 一 个 sockaddr_in 结 构 ) 的 长 度 。 

图 6-19 显 示 了 in_ifinit 的 最 后 一 部 分 ， 它 为 接口 添加 了 一 个 路 由 ， 并 加 入 所 有 主机 多 
播 组 。 

6. 为 主机 或 网 络 建立 路 由 
404-422 下 一 步 是 为 新 地 址 所 指定 的 网 络 创建 一 个 路 由 。in_control 从 接口 将 路 由 度量 
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复制 到 结构 in_ifaddz 中 。 如 果 接 口 支持 广播 ， 则 构造 广播 地 址 ， 并 且 把 目的 地 址 强制 为 分 
配给 环 回 接口 的 地 址 。 如 果 一 个 点 对 点 接口 没有 一 个 指派 给 链 路 另 一 端的 IP 地 址 ， 则 
in_contzol 在 试图 为 这 个 无 效 地 址 建立 路 由 前 返回 。 
in_ifinit 将 Elags 初 始 化 为 RTE_UP， 并 与 环 回 和 点 对 点 接口 的 RTF_HOST 进 行 逻 辑 或 。 
rtinit 为 此 接口 给 这 个 网 络 (不 设置 RTF_HOST) 或 主机 (设置 RTF_HOST) 安 装 一 个 路 由 。 寿 
rtinit 安 装 成 功 ， 则 设置 ta_flags 中 的 标志 IFRA_ROUTE， 指 示 已 给 此 地 址 安装 了 一 个 路 由 。 


in.c 
404 r^ 
405 * Add route for the network. 
406 Kk; 
407 ia-»ia ifa.ifa metric = ifp-»if metric; 
408 if (ifp-»if flags & IFF BROADCAST) ( 
409 ia-»ia broadaddr.sin addr.s addr = 
410 htonl(ia-»ia subnet | ^ia-»ia subnetmask); 
411 ia-»ia netbroadcast.s addr = 
412 htonl(ia-»ia net | ^ia-»ia netmask); 
413 ) else if (ifp-»if flags & IFF LOOPBACK) ( 
414 ia-»ia ifa.ifa dstaddr = ia-»ia ifa.ifa addr; 
415 flags |- RTF HOST; 
416 ) else if (ifp-»if flags & IFF POINTOPOINT) ( 
417 if (ia-»ia dstaddr.sin family !- AF INET) 
418 return (0); 
419 flags |= RTF HOST; 
420 ) 
421 if ((error = rtinit(&(ia-»ia ifa), (int) RTM ADD, flags)) == 0) 
422 ia-»ia flags |- IFA ROUTE; 
423 y* 
424 * If the interface supports multicast, join the "all hosts" 
425 * multicast group on that interface. 
426 v4 
427 if (ifp-»if flags & IFF MULTICAST) ( 
428 struct in addr addr; 
429 addr.s addr - htonl(INADDR ALLHOSTS GROUP); 
430 in addmulti(&addr, ifp); 
431 ) 
432 return (error); 
433 ) i 
1n.C 
图 6-19 函数 in ifinit: 路 由 和 多 播 组 
7. 加 入 所 有 主机 组 
423-433 最后， 一 个 有 多 播 能 力 的 接口 当 它 被 初始 化 时 必须 加 入 所 有 主机 多 播 组 。 


in_addmulti 完 成 此 工作 ， 并 在 12.11 市 讨论 。 


6.6.6 ”网络 捧 码 指派 : SIOCSIFNETMASK 


图 6-20 显 示 了 网 络 掩 码 命令 的 处 理 。 


262 
263 
264 
265 


case SIOCSIFNETMASK: "e 
i = ifra-»ifra addr.sin addr.s addr; . 
ia-»ia subnetmask = ntohl(ia-»ia sockmask.sin addr.s addr = i); 
break; 
n.c 


图 6-20 Krin control: 网 络 掩 码 指派 


$63 IP R x I37 
262-265 in controlAifreq£hTWJrBZkHBOzA ERG, H E A R R ET FER ETE 
ia sockmask 中 ， 以 主机 字 节 序 保 存在 ia_subnetmask 中 。 
6.6.7 目的 地 址 指派 : SIOCSIFDSTADDR 


对 于 点 对 点 接口 ， 在 链 路 另 一 端的 系统 的 地 址 用 SIOCSIFDSTRDDR 命 令 指 定 。 图 6-14 显 
示 了 图 6-21 中 的 代码 的 前 提 条 件 处 理 。 


236 case SIOCSIFDSTADDR: Man 

237 if ((ifp-»if flags & IFF POINTOPOINT) == 0) 

238 return (EINVAL); 

239 oldaddr = ia->ia dstaddr; 

240 ia-»ia dstaddr = *(struct sockaddr in *) &ifr-»ifr dstaddr; 

241 if (ifp-»if ioctl && (error = (*ifp-»if ioctl) 

242 (ifp, SIOCSIFDSTADDR, (caddr t) ia))) { 

243 ia-»ia dstaddr = oldaddr; 

244 return (error); 

245 ) 

246 if (ia-»ia flags & IFA ROUTE) ( 

247 ia-»ia ifa.ifa dstaddr - (struct sockaddr *) &oldaddr; 

248 rtinit(&(ia-»ia ifa), (int) RTM DELETE, RTF HOST); 

249 ia-»ia ifa.ifa dstaddr - 

250 (struct sockaddr *) &ia-»ia dstaddr; 

251 rtinit(&(ia-»ia ifa), (int) RTM ADD, RTF HOST | RTF UP); 

252 } 

253 break; 
1n.c 


图 6-21 Kýrin control: 目的 地 址 指派 


236-245 只 有 点 对 点 网 络 才 有 目的 地 址 ， 因 此 对 于 其 他 网 络 ，in_control 返 回 EINVAL。 
将 当前 目的 地 址 保存 在 oldaddr 后 ， 代 码 设置 新 地 址 ， 并 通过 函数 i£f_ioct1l1 通 知 硬件 。 如 
RREZ, MKE HHE. 

246-253 如 果 地 址 原来 有 一 个 关联 的 路 由 ， 首 先 调用 ztinit 删 除 这 个 路 由 ， 并 再 次 调用 
ztinit 为 新 地 址 安装 一 个 新 路 由 。 


6.6.8 获取 接口 信息 


图 6-22 显 示 了 命令 SIOCSIFBRDADDR 的 前 提 条 件 处 理 ， 它 同 将 接口 信息 返回 给 调用 进程 
的 ioct1 命 令 一 样 。 


207 case SIOCSIFBRDADDR: ise 

208 if ((so-»so state & SS PRIV) == O0) 

209 return (EPERM); 

210 /* FALLTHROUGH */ 

211 case SIOCGIFADDR: 

212 case SIOCGIFNETMASK: 

213 case SIOCGIFDSTADDR: 

214 case SIOCGIFBRDADDR: 

215 lf (iā =s (struct in. ifaddr *) 0) 

216 return (EADDRNOTAVAIL); 

217 break; . 
n.c 


图 6-22 Kýrin control: 前 提 条 件 处 理 
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207-217 J EWI He t — MERHER OEH OK HE. fr e SIOCSIFBRDADDR 
和 4 个 SIOCGxxx 命 令 仅 当 已 经 为 此 接口 定义 了 一 个 地 址 时 才 起 作用 ， 在 这 种 情况 下 ，ia 不 会 
为 空 (ia 被 in control 设 置 ， 图 6-13)。 如 果 ia 为 空 ， 返 回 EADDRNOTAVAIL，。 

这 5 个 命令 (4 个 get 命 令 和 一 个 set 命 令 ) 的 处 理 显 示 在 图 6-23 中 。 


220 case SIOCGIFADDR: me 
221 *((struct sockaddr in *) &ifr-»ifr addr) = ia-»ia addr; 

222 break; 

223 case SIOCGIFBRDADDR: 

224 if ((ifp->if_flags & IFF_BROADCAST) == 0) 

225 return (EINVAL); 

226 * ( (struct sockaddr in *) &ifr->ifr_dstaddr) = ia-»ia broadaddr; 
227 break; 

228 case SIOCGIFDSTADDR: 

229 if ((ifp-»if flags & IFF POINTOPOINT) == 0) 

230 return (EINVAL); 

231 *((struct sockaddr in *) &ifr-»ifr dstaddr) = ia-»ia dstaddr; 
232 break; 

2433 case SIOCGIFNETMASK: 

234 *((struct sockaddr in *) &ifr-»ifr addr) = ia-»ia sockmask; 

235 break; 


. /* processing for SIOCSIFDSTADDR comma 








254 case SIOCSIFBRDADDR: 

2595 if ((ifp-»if flags & IFF BROADCAST) == 0) 

256 return (EINVAL); 

251 ia-»ia broadaddr = *(struct sockaddr in *) &ifr-»ifr broadaddr; 
258 break; 


in.c 
图 6-23 pm&Zxin control; 处 理 


220-235 将 单 播 地 址 、 广 播 地 址 、 目 的 地 址 或 者 网 络 掩 码 复制 到 ifreq 结 构 。 只 有 网 络 接 
口 支持 广播 ， 广播 地 址 才 有 效 ， 并 且 只 有 点 对 点 接口 ， 目 的 地 址 才 有 效 。 
254-258 仅 当 接口 支持 广播 ， 才 从 结构 ifzreg 中 复制 广播 地 址 。 


6.6.9 每 个 接口 多 个 IP 地 址 


SIOCGxxx 和 SIOCSxxx 命 令 只 操作 与 一 个 接口 关联 的 第 一 个 IP 地 址 一 一 在 ijn control 
开头 的 循环 找到 的 第 一 个 地 址 (图 6-25)。 为 支持 每 个 接口 的 多 个 IP 地 址 ， 必 须 用 
SIOCRIERDDR 命 令 指 派 和 配置 其 他 的 地 址 。 实 际 上 ，SIOCRAIEFRADDR 能 完成 所 有 SIOCGxxx 
和 SIOCSxxx 命 令 能 完成 的 操作 。 程 序 ifconfig 使 用 SIOCAIFADDR 来 配置 一 个 接口 的 所 有 
地 址 信息 。 

如 前 所 述 ， 每 个 接口 有 多 个 地 址 便于 在 主机 或 网 络 改 号 时 过 渡 。 一 个 容错 软件 系统 可 能 
使 用 这 个 特性 来 准许 一 个 备份 系统 充当 一 个 故障 系统 的 IP 地 址 。- 

Net/3 的 ifconfig 程 序 的 -alias 选 项 将 存放 在 一 个 in_aliaszred 中 的 其 他 地 址 的 相关 
言 县 传递 给 内 核 ， 如 图 6-24 所 示 。 


£63 IP 4$ à 139 


59 struct in aliasreq ( fn pan 
60 char ifra name[IFNAMSIZ]; /* interface name, e.g. "en0" */ 
61 struct sockaddr in ifra addr; 
62 struct sockaddr in ifra broadaddr; 
63 #define ifra dstaddr ifra broadaddr 
64 struct sockaddr in ifra mask; 
65 Y; 
in var.h 


图 6-24 结构 in aliasreq 


59-65 注意 ,不 像 结 构 ifzreq， 在 结构 in_aliasredg 中 没有 定义 联合 。 在 一 个 单独 的 
ioct1 调 用 中 可 以 为 SIOCAIFADDR 指 定 地 址 、 广 播 地 址 和 掩 码 。 

SIOCAIFADDR 增 加 一 个 新 地 址 或 修改 一 个 已 存在 地 址 的 相关 信息 。SIOCDIFADDR 删 除 
匹配 的 IP 地 址 的 in_ ifaddr 结 构 。 图 6-25 显 示 命 令 SIOCAIFADDR 和 SIOCDIFADDR 的 前 提 
条 件 处 理 ， 它 假设 在 in_control( 图 6-13) 开 头 的 循环 已 经 将 ia 设 置 为 指向 与 
ifra_name( 如 果 存 在 ) 指 定 的 接口 关联 的 第 一 个 IP 地 址 。 


154 case SIOCAIFADDR: inns 

1955 case SIOCDIFADDR: 

156 if (ifra-»ifra, addr.sin family == AF, INET) 

157 for (oia = ia; ia; ia = ia-»ia next) ( 

158 if (ia-»ia ifp == ifp && 

159 ia-»ia addr.sin addr.s addr -- 

160 ifra-»ifra addr.sin, addr.s, addr) 

161 break; 

162 ) 

163 if (cmd == SIOCDIFADDR && ia == 0) 

164 return (EADDRNOTAVAIL); 

165 /* FALLTHROUGH to Figure 6.14 */ : 
1n.c 


图 6-25 Krin control: 添加 和 删除 地 址 


154-165 因为 SIOCDIFADDR 代 码 只 查看 *ifra 的 前 两 个 成 员 ， 图 6-25 所 示 的 代码 用 于 处 
理 SIOCAIFADDR( 当 ifra 指 向 一 个 jn aliasreq 结 构 时 ) 和 SIOCDIFADDR( 当 ifra 指 问 一 
个 ifreq 结 构 时 )。 结 构 in_aliasreq 和 ifreq 的 前 两 个 成 员 是 一 样 的 。 

对 于 这 两 个 命令 ，in_contzrol 开 头 的 循环 启动 foz 循 环 不 断 地 查找 与 iftza- 
>ifra_addr 指 定 的 了 P 地 址 相同 的 in_ifaddr 结 构 。 对 于 删除 命令 ， 如 果 地 址 没有 找到 ， 则 
返回 EADDRNOTAVAIL。 

在 这 个 处 理 删 除 命令 的 循环 和 检验 后 ， 控 制 落 到 我 们 在 图 6-14 中 讨论 的 代码 之 外 。 对 于 
添加 命令 ， 图 6-14 的 代码 若 找 不 到 一 个 与 in_aliasreq 结 构 中 地 址 匹配 的 地 址 ， 就 分 配 一 个 
新 in_ ifaddr 结 构 。 


6.6.10 ”附加 IP 地 址 ;SIOCAIFADDR 


这 时 ia 指 向 一 个 新 的 jn_ifaddr 结 构 或 一 个 包含 与 请 求 地 址 匹配 的 IP 地 址 的 旧 
in ifaddr 结 构 。SIOCAIFADDR 的 处 理 显示 在 图 6-26 中 。 
266-277 因为 SIOCAIFADDR 能 创建 一 个 新 地 址 或 修改 一 个 已 存在 地 址 的 相关 信息 ， 标 志 
maskIsNew 和 hostIsNew 跟 踪 变 化 的 情况 。 这 样 ， 在 这 个 函数 结束 上 时， 如 果 必 要 ， 能 更 新 
路 由 。 
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in.c 

266 case SIOCAIFADDR: 

267 maskIsNew = 0; 

268 hostIsNew = 1; 

269 error = 0; 

270 if (ia-»ia, addr.sin family == AF INET) ( 

271 if (ifra-»ifra addr.sin len == 0) ( 

272 ifra-»ifra addr = ia-»ia addr; 

213 hostIsNew = O0; 

274 ) else if (ifra-»ifra addr.sin addr.s addr == 

475 ia-»ia addr.sin addr.s addr) 

276 hostIsNew - 0; 

2717 ) 

278 if (ifra-»ifra mask.sin len) { 

279 in ifscrub(ifp, ia); 

280 ila-»ia, sockmask = ifra-»ifra mask; 

281 ia-»ia subnetmask - 

282 ntohl(ia-»ia sockmask.sin addr.s addr); 

283 maskIsNew - 1; 

284 ) 

285 if ((ifp-»if flags & IFF POINTOPOINT) && 

286 (ifra-»ifra dstaddr.sin family == AF INET)) ( 

287 in ifscrub(ifp, ia): 

288 ja-»ia dstaddr = ifra-»ifra dstaddr; 

289 maskIsNew - 1; /* We lie; but the effect's the same */ 

290 } 

291 if (ifra-»ifra addr.sin family == AF_INET && 

292 (hostIsNew || maskIsNew)) 

293 error = in ifinit(ifp, ia, &ifra-»ifra addr, 0); 

294 if ((ifp-»if flags & IFF BROADCAST) && 

295 (ifra-»ifra broadaddr.sin family == AF INET)) 

296 ia-»ia broadaddr = ifra-»ifra broadaddr; 

297 return (error); 
n.c 


图 6-26 trin control; SIOCAIFADDR 处 理 


代码 在 默认 方式 下 取 一 个 新 的 卫 地 址 指派 给 接口 hostIsNew 以 1 开始 )。 如 果 新 地 址 的 长 
度 为 0，in_control 将 当前 地 址 复制 到 请 求 中 ， 并 将 hostIsNew 修 改 为 0。 如 果 长 度 不 是 0， 
并 且 新 地 址 与 老 地 址 匹配 ， 则 这 个 请 求 不 包含 一 个 新 地 址 ， 并 且 hostIsNew 被 设置 为 0。 
278-284 ”如 果 在 这 个 请 求 中 指定 一 个 网 络 掩 码 ， 则 任何 使 用 此 当前 地 址 的 路 由 被 忽略 ， 并 
Hin control 安 装 此 新 掩 码 。 

285-290 如 果 接 口 是 一 个 点 对 点 接口 ， 并 且 此 请 求 包括 一 个 新 目的 地 址 ， 则 in_scrub 名 
略 任 何 使 用 此 地 址 的 路 由 ， 新 目的 地 址 被 安装 ， 并 且 maskIsNew 被 设置 为 1， 以 强制 调用 
in ifinit 来 重 配 置 接 口 。 

291-297 如 果 配 置 了 一 个 新 地 址 或 指派 了 一 个 新 掩 码 ， 则 in_ifinit 做 适当 的 修改 来 支持 
新 的 配置 (图 6-17)。 注 意 ，in_ifinit 的 最 后 一 个 参数 为 0。 这 表示 已 注意 到 这 一 点 ， 不 必 刷 
新 所 有 路 由 。 最 后 ， 如 果 接 口 支持 广播 ， 则 从 in_aliaszreg 结 构 复制 广播 地 址 。 


6.6.11 删除 IP 地 址 : SIOCDIFADDR 


命令 SIOCDIFADDR 从 一 个 接口 删除 IP 地 址 ， 如 图 6-27 所 示 。 记 住 ，ia 指 向 要 被 删除 的 
in ifaddr 结 构 ( 即 ， 与 请 求 匹 配 的 )。 


$563 IP i$ à 141 


298 case SIOCDIFADDR: d 

299 in ifscrub(ifp, ia); 

300 if ((ifa = ifp-»if addrlist) == (struct ifaddr *) ia) 

301 /* ia is the first address in the list */ 

302 ifp-»if addrlist = ifa-»ifa next; 

303 else ( 

304 /* ia is *not* the first address in the list */ 

305 while (ifa-»ifa next && 

306 (ifa-»ifa next !- (struct ifaddr *) ia)) 

307 i] ifa = ifa-»ifa next; 

308 if (ifa-»ifa next) 

309 ifa-»ifa next = ((struct ifaddr *) ia)-»ifa next; 

310 else 

311 printf("Couldn't unlink inifaddr from ifpMn"); 

312 ) 

313 oia - ia; 

314 df (oia == (ia = injifaddr)) 

315 in ifaddr = ia-»ia next; 

316 else ( 

317 while (ia-»ia next && (ia-»ia next !- oia)) 

318 ia = ia-»ia next; 

319 if (ia-»ia next) 

320 ia-»ia next - oia-»ia next; 

321. else 

322 printf("Didn't unlink inifadr from list^4n"); 

323 ) 

324 IFAFREE((&oia-»ia ifa)); 

325 break; à 
1n.c 


图 6-27 in controlrAZ&: 删除 地 址 


298-323 前 提 条 件 处 理 代码 将 ia 指向 要 删除 的 地 址 。in_ifsczrub 删 除 任何 与 此 地 址 关联 
的 路 由 。 第 一 个 if 删 除 接 口 地 址 列表 的 结构 。 第 二 个 if£ 删 除 来 自 Internet 地 址 列表 
(in ifaddr) 的 结构 。 

324-325 IFAFREE 只 在 引用 计数 降 到 0 时 才 释 放 此 结构 。 


其 他 引用 可 能 来 自 路 由 表 中 的 各 项 。 


6.7 接口 ioct1 处 理 


我 们 现在 查看 当 一 个 地 址 被 分 配给 接口 时 的 专用 ioct1 处 理 ， 对 于 我 们 的 每 个 例子 接口 ， 
这 个 处 理 分 别 在 国 数 leioct1、s1lioct1 和 1Lloioct1 中 。 

in ifinit 通 过 图 6-16 中 的 SIOCSIFADDR 代 码 和 图 6-26 中 的 SIOCAIFADDR 代 码 调 用 。 
in ifinit 总 是 通过 接口 的 jf_ioct1l1 函 数 发 送 SIOCSIFADDR 命 令 (图 6-17)。 


6.7.1 leioctlRZT 


图 4-31 显 示 了 LANCE 驱 动 程 序 的 SIOCSIRELRAGS 命 令 的 处 理 。 图 6-28 显 示 了 
SIOCSIFADDR 命 令 的 处 理 。 
614-637 在 处 理 命令 前 ，data 转 换 成 一 个 ifaddr 结 构 指 针 ， 并 且 ifp->if unit 为 此 请 
求 选 择 相 应 的 le_softc 结 构 。 

leinit 将 接口 标志 为 启动 并 初始 化 硬件 。 对 于 Internet 地 址 ，IP 地 址 保存 在 arpcom 结 构 
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中 ， 并 且 为 此 地 址 发 送 一 个 免费 ARP。 免 费 ARP 在 21.5 市 和 卷 1 的 4.7 市 中 讨论 。 
未 识别 命令 
627-677 对 于 未 识别 命令 ， 返 回 EINVAL。 


if le.c 


614 leioctl(ifp, cmd, data) 
615 struct ifnet *ifp; 





616 int cmd; 
617 caddr t data; 
618 ( 
619 struct ifaddr *ifa = (struct ifaddr *) data; 
620 struct le softc *le = &le softc[ifp-»if unit]; 
621 struct leregl *ler1 = le-»sc r1; 
622 int S = Splimp(), error --0; 
623 switch (cmd) ( 
624 case SIOCSIFADDR: 
625 ifp-»if flags |= IFF UP; 
626 switch (ifa-»ifa, addr-»sa family) ( 
627 case AF. INET: 
628 leinit(ifp-»if unit); /* before arpwhohas */ 
629 ((struct arpcom *) ifp)-»ac ipaddr - 
630 IA SIN(ifa)-»sin addr; 
631 arpwhohas((struct arpcom *) ifp, &IA SIN(ifa)-»sin addr); 
632 break; 
633 default: 
634 leinit(ifp-»if unit); 
635 break; 
636 ) 
637 break; 
/* SIOCAD 
672 default: 
673 error - EINVAL; 
674 ) 
675 splx(s); 
676 return (error); 
677 ) 





if le.c 
图 6-28 国 数 Leioct1l 
6.7.2 slioctlgjZW 


iArslioctl(ÉK6-29)JjSLIPiE $& Ul zJ] 2$ A B d 4 SIOCSIFADDRÁISIOCSIFDSTADDR, 
if sl.c 





653 int 
654 slioctl(ifp, cmd, data) 
655 struct ifnet *ifp; 


656 int cmd; 

657 caddr t data; 

658 ( 

659 Struct ifaddr *ifa = (struct ifaddr *) data; 
660 struct ifreq *ifr; 

661 int s = Ssplimp(), error = O0; 

662 switch (cmd) { 


图 6-29 ij slioctld. 命令 SIOCSIFADDR 和 SIOCSIFDSTADDR 
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663 case SIOCSIFADDR: 

664 if (ifa-»ifa addr-»sa family == AF INET) 
665 ifp-»if flags |= IFF UP; 

666 else 

667 error - EAFNOSUPPORT; 

668 break; 

669 case SIOCSIFDSTADDR: 

670 if (ifa-»ifa addr-»sa family !- AF, INET) 
671 error - EAFNOSUPPORT; 

672 break; 





688 default: 

689 . error = EINVAL; 
690 ) 

691 splxí(s); 

692 return (error); 

693 ) 





图 6-29 (£x) 


663-672 ”对 于 这 两 个 命令 ， 如 果 地 址 不 是 一 个 IP 地 址 ， 则 返回 EAFNOSUPPORT。 


SIOCSIFADDR 命 令 设 置 IFF_UP。 


未 识别 命令 
688-693 对 于 未 识别 命令 ， 返 回 了 INVRL。 


6.7.3 loioctlZ 


国 数 1oioct1 和 它 的 SIOCSIFRRADDR 命 令 的 实现 显示 在 图 6-30 中 。 





135 int 
136 loioctl(ifp, cmd, data) 
137 Btruct ifnet *l1fp:; 


138 int cmd; 

139 caddr t data; 

140 ( 

141 struct ilfaddr *ifa; 

142 struct 1fregy *ifri 

143 int error = 0; 

144 switch (cmd) ( 

145 case SIOCSIFADDR: 

146 ifp-»if flags |= IFF UP; 

147 lfa = (struct ifaddr *) data; 
148 /* 

149 * Everything else is done at a higher level. 
150 ufi 

151 break; 





图 6-30 iA loioctl; fy 4 SIOCSIFADDR 
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if sl.c 


if loop.c 
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167 default: 

168 error - EINVAL; 
169 ) 

170 return (error); 

171 ) 





if loop.c 
图 6-30 (£x) 


135-151 对 于 Internet 地 址 ，1loioct1 设 置 ITFE_ UP， 并 立即 返回 。 
未 识别 命令 
167-171 对 于 未 识别 命令 ， 返 回 EINVAL。 
注意 ， 对 于 所 有 这 三 个 例子 驱动 程序 ， 指 派 一 个 地 址 会 导致 接口 被 标记 为 启用 (IFF_UP)。 


6.8 ”Internet 实 用 函数 


图 6-31 列 出 了 几 个 操作 Internet 地 址 或 依赖 于 图 6-5 中 ifnet 结 构 的 函数 ， 它 们 通常 用 于 发 
现 不 能 单 从 32 位 IP 地 址 中 获得 的 子 网 信息 。 这 些 函 数 的 实现 主要 包括 数据 结构 的 转换 和 操作 
位 掩 码 。 读 者 在 netinety/in.c 中 可 以 找到 这 些 国 数 。 


in_netof 返回 in 中 的 网 络 和 子 网 部 分 。 主 机 比特 被 设置 为 0。 对 于 D 类 地 址 ， 返 回 D 类 前 缀 比 
特 和 用 于 多 播 组 的 0 比特 
u long in netof(struct in_addr in); 
in canforward 如 果 地 址 为 in 的 IP 分 组 有 资格 转发 ， 则 返回 真 。D 类 和 E 类 地 址 、 环 回 网 络 地 址 和 有 
一 个 为 0 网 络 号 的 地 址 不 能 转发 
int in canforward(struct in addr in); 


in localaddr 如 果 主 机 六 被 定位 在 一 个 直接 连接 的 网 络 ， 则 返回 真 。 如 果 全 局 变量 subnetsarelocal 
非 0， 则 所 有 直接 连接 的 网 络 的 子 网 也 被 认为 是 本 地 的 
int in localaddr(struct in addr in); 


in broadcast 如 果 in 是 一 个 由 i 力 指 癌 的 接口 所 关联 的 广播 地 址 ， 则 返回 真 


int in broadcast(struct in addr in, struct ifnet *ifp); 





[6-31 Internet 地 址 函数 


Net/2 在 ijn canforward 中 有 一 个 错误 : 它 允 许 转 发 环 回 地 址 。 因 为 大 多 数 
Net/2 系 统 被 配置 为 只 承认 一 个 环 回 地 址 ， 如 127.0.0.1，Net/2 系 统 常 沿 着 默认 路 由 在 
环 回 网 络 中 转发 其 他 地 址 (例如 127.0.0.2)。 

一 个 到 127.0.0.2 的 telnet 可 能 不 是 你 所 希望 的 (见习 题 6.6)。 


6.9 ifnet 实 用 函数 


几 个 查找 数据 结构 的 函数 显示 在 图 6-5 中 。 列 于 图 6-32 的 函数 接受 任何 协议 族 类 的 地 址 ， 
因为 它们 的 参数 是 指向 一 个 sockaddr 结 构 的 指针 ， 这 个 结构 中 包含 有 地 址 族 类 。 与 图 6-31 
中 的 函数 比较 ， 在 那里 的 每 个 函数 将 32 bit 的 IP 地 址 作为 一 个 参数 。 这 些 函 数 定义 在 文件 
net/if.ch, 
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ifa ifwithaddr 在 ifnet 列 表 中 查找 有 一 个 单 播 或 广播 地 址 addr 的 接口 。 返 回 一 个 指向 这 个 
匹配 的 ifaddzr 结 构 的 指针 ， 或 者 若 设 有 找到 ， 则 返回 一 个 空 指针 
struct ifaddr * ifa ifwithaddr(struct sockaddr *addr); 
ifa ifwithdstaddr 在 ifnet 列 表 中 查找 目的 地 址 为 addr 的 接口 。 返 回 一 个 指向 这 个 匹配 的 
ifaddr 结 构 的 指针 ， 或 者 者 没有 找到 ， 则 返回 一 个 空 指针 
struct ifaddr * ifa ifwithdstaddr (struct sockaddr *addr); 
ifa ifwithnet 在 ifnet 列 表 中 查找 与 addr 同 一 网 络 的 地 址 。 返 回 匹 配 的 ifaddaqr 结 构 的 指 
针 ， 或 者 若 没 有 找到 ， 则 返回 一 个 空 指 针 


struct ifaddr * ifa ifwithnet(struct sockaddr *addr); 


ifa ifwithaf 在 ifnet 列 表 中 查找 与 add 具 有 相同 地 址 族 类 的 第 一 个 地 址 。 返 回 匹配 的 
ifaddr 结 构 的 指针 ， 或 者 若 没 有 找到 ， 则 返回 一 个 空 指针 


struct ifaddr * ifa ifwithaf(struct sockaddr *addr); 
ifaof ifpforaddr 在 i 加 列表 中 查找 与 addr 匹 配 的 地 址 。 用 于 精确 匹配 的 引用 次 序 为 : 一 个 点 对 
点 链 路 上 的 目的 地 址 、 一 个 同一 网 络 上 的 地 址 和 一 个 在 同一 地 址 族 类 的 地 址 ， 
则 返回 匹配 的 ifaddz 结 构 的 指针 ， 或 者 若 没 有 找到 ， 则 返回 一 个 空 指针 
struct ifaddr * ifaof ifpforaddr(struct sockaddr *addr, 
struct ifnet *ifp); 
ifa ifwithroute 返回 目的 地 址 (dsb 和 网 关 地 址 (gateway) 指定 的 相应 的 本 地 接口 的 ifaddqz 结 
构 的 指针 
struct ifaddr * ifa ifwithroute(int flags, struct 
sockaddr *dst, struct sockaddr *gateway); 


ifunit 返回 与 Iame 关 联 的 1fnet 结 构 的 指针 
struct ifnet * ifunit(char *name); 


图 6-32 ifnetS3:H A 





6.10 :小 结 


在 本 章 中 ， 我们 概述 了 IP 编 址 机 制 ， 并 且说 明了 IP 专 用 的 接口 地 址 结构 和 协议 地 址 结构 : 
结构 in_ ifaddr 和 sockaddr in, 

我 们 讨论 了 如 何 通过 程序 ifconfig 和 ioct1 接 口 命令 来 配置 接口 的 IP 专 用 信息 。 

最 后 ， 我 们 总 结 了 几 个 操作 IP 地 址 和 查找 接口 数据 结构 的 实用 函数 。 


习题 


6. 你 认为 为 什么 在 结构 sockaddr_in 中 的 sin_addr 最 初 定义 为 一 个 结构 ? 

6.2 ifunit("sl10") 返 回 的 指针 指向 图 6-5 中 的 哪个 结构 ? 

6.3 当 IP 地 址 已 经 包含 在 接口 的 地 址 列表 中 的 一 个 i1faddr 结 构 中 时 ， 为 什么 还 要 在 
ac ipaddr 中 备份 ? 

6.4 你 认为 为 什么 IP 接 口 地 址 要 通过 一 个 UDP 插 口 而 不 是 一 个 原始 的 IP 插 口 来 访问 ? 

65 为 什么 in_socktrim 要 修改 sin_len 来 匹配 掩 码 的 长 度 ， 而 不 使 用 一 个 
sockaddr in 结 构 的 标准 长 度 ? ! 

6.6 当 一 个 telnet 127.0.0.2 命 令 中 的 连接 请 求 部 分 被 一 个 Net/2 系 统 错误 地 转发 ， 
并 且 最 后 被 认可 ， 同 时 还 被 默认 路 由 上 的 一 个 系统 所 接收 时 ， 会 发 生 什么 情况 ? 


种/ 章 域 和 协议 


7.1 引言 


在 本 章 中 ， 我 们 讨论 支持 同时 操作 多 个 网 络 协议 的 NeV3 数 据 结 构 。 用 Internet 协 议 来 说 明 
在 系统 初始 化 时 这 些 数 据 结 构 的 构造 和 初始 化 。 本 章 为 我 们 讨论 IP 协 议 处 理 层 提供 必要 的 背 
景 资料 ， 了 P 协 议 处 理 层 在 第 8 章 讨 论 。 

Net3 组 把 协议 关联 到 一 个 域 中 ， 并 且 用 一 个 协议 族 常量 来 标识 每 个 域 。Net/3 还 通过 所 使 
用 的 编 址 方法 将 协议 分 组 。 回 忆 图 3-19， 地 址 族 也 有 标识 常量 。 当 前 ， 在 一 个 域 中 的 每 个 协 
议 使 用 同类 地 址 ， 并 且 每 种 地 址 只 被 一 个 域 使 用 。 作 为 结果 ， 一 个 域 能 通过 它 的 协议 族 或 地 
址 族 常 量 唯一 标识 。 图 7-1 列 出 了 我 们 讨论 的 协议 和 常量 。 


PF INET AF INET Internet 
PF OSI, PF ISO AF OSI, AF ISO OSI 


PF LOCAL, PF UNIX | AF LOCAL, AF UNIX | 本 地 IPC(Unix) 
PF ROUTE AF ROUTE 路 由 表 
n/a AF LINK 链 路 层 (例如 以 太 网 ) 





图 7-1 公共 的 协议 和 地 址 族 常 量 


PF LOCAL 和 AF LOCAL 是 支持 同一 主机 上 进程 间 通 信 的 协议 的 主要 标识 ， 它 们 

是 POSIX.12 标 准 的 一 部 分 。 在 Net/3 以 前 ， 用 PF_UNIX 和 AF UNIX 标 识 这 些 协 议 。 

在 Net/3 中 保留 UNIX 常 量 ， 用 于 向 后 兼容 ， 并 且 要 在 本 书 中 讨论 。 

PE_UNIX 域 支持 在 一 个 单独 的 Unix 主 机 上 的 进程 间 通 信 。 细 节 见 [Stevens 1990], 
PEF_ROUTE 域 支持 在 一 个 进程 和 内 核 中 路 由 软件 间 的 通信 (第 18 章 )。 我 们 偶尔 引用 PF_OSI 协 
议 ， 它 作为 Net/3 特 性 仅 支 持 OSI 协 议 ， 但 我 们 不 讨论 它们 的 细节 。 大 多 数 讨论 是 关于 
PF_INET 协 议 的 。 


7.2 代码 介绍 


本 章 涉 及 两 个 头 文件 和 两 个 C 文 件 。 图 7-2 摘 述 了 这 4 个 文件 。 
netinet/domain.h domain 结 构 定义 
netinet/protosw.h protosw 结 构 定 义 
netinet/in proto.c IP domain 和 protosw 结 构 
kern/uipc domain.c | 初始 化 和 查找 函数 


图 7-2 在 本 章 中 讨论 的 文件 










$7$* APAR 147 


7.2.1 全 局 变量 


图 7-3 描 述 了 几 个 重要 的 全 局 数据 结构 和 系统 参数 ， 它 们 在 本 章 中 讨论 ， 并 经 常 在 Net/3 中 
引用 。 


domain struct domain * 链接 的 域 列 表 
inetdomain struct domain Internet 协 议 的 aomain 结 构 
inetsw struct protosw[] Internet 协 议 的 protosw 结 构 数 组 


max linkhdr i 见 图 7-17 
max protohdr i 见 图 7-17 
max hdr i 见 图 7-17 
max datalen j 见 图 7-17 





图 7-3 在 本 章 中 介绍 的 全 局 变量 


7.2.2 统计 量 


除了 图 7-4 显 示 的 由 函数 ip_init 分 配 和 初始 化 的 统计 量 表 ， 本 章 讨 论 的 代码 没有 收集 其 
他 统计 量 。 通 过 一 个 内 核 调 试 工具 是 查看 这 个 表 的 唯一 方法 。 


[xx [mms] wm 
int[]I] 二 维 数组 ， 用 来 统计 在 任意 两 个 接口 间 传送 的 分 组 数 


图 7-4 在 本 章 中 收集 的 统计 量 





7.3 domain 结 构 


一 个 协议 域 由 一 个 图 7-$ 所 示 的 domain 结构 来 表示 。 


domain.h 
42 struct domain ( 
43 int dom family; /* AF xxx */ 
44 char *dom name; 
45 void (*dom init) /* initialize domain data structures */ 
46 (void); 
47 int (*dom externalize) /* externalize access rights */ 
48 (struct mbuf *); 
49 int (*dom dispose) /* dispose of internalized rights */ 
50 (struct mbuf *); 
51 struct protosw *dom protosw, *dom protoswNPROTOSW; 
52 struct domain *dom next; 
53 int (*dom rtattach) /* initialize routing table */ 
54 (void **, int); 
55 int dom rtoffset; /* an arg to rtattach, in bits */ 
56 int dom maxrtkey; /* for routing layer */ 
57 X4 
domain.h 


图 7-5 结构 domain 的 定义 


42-57 dom family 是 一 个 地 址 族 常量 (例如 AF_INET)， 它 指示 在 此 域 中 协议 使 用 的 编 址 
方式 。dom_name 是 此 域 的 一 个 文本 名 称 (例如 “internet”)。 
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除了 程序 fstat (1) 在 它 格式 化 插口 信息 时 使 用 dom_name 外 ,成 员 dom_name 
不 被 Net/3 内 核 的 任何 部 分 访问 。 
dom init 指 向 初始 化 此 域 的 商 数 。 dom externalize 和 dom dispose 指 向 那些 管 
理 通 过 此 域内 通信 路 径 发 送 的 访问 权限 的 函数 。Unix 域 实现 这 个 特性 在 进程 间 传 递 文件 摘 述 
符 。Internet 域 不 实现 访问 权限 。 
dom protosw 和 dom protoswNPROTOSW 指 向 一 个 protosw 结 构 的 数组 的 起 始 和 结 
束 。dom_next 指 向 在 一 个 内 核 支 持 的 域 链 表 中 的 下 一 个 域 。 包 含 所 有 域 的 链表 通过 全 局 指 
针 domains 来 访问 。 
接 下 来 的 三 个 成 员 ，dom rtattach, dom rtoffsetflldom _maxrtkey 保 存 此 域 的 
路 由 信息 。 它 们 在 第 18 章 讨论 。 
图 7-6 显 示 了 一 个 domains 列 表 的 例子 。 


domains: 





isodomain: 


7.4 protosw 结 构 


domain() 


inetdomain: 





routedomain: unixdomain: 













图 7-6 domains 列 表 


在 编译 期 间 ，Net/3 为 内 核 中 的 每 个 协议 分 配 一 个 protosw 结 构 并 初始 化 ， 同 时 将 在 一 个 域 
中 的 所 有 协议 的 这 个 结构 组 织 到 一 个 数组 中 。 每 个 domain 结 构 引 用 相应 的 protosw 结 构 数 组 。 
一 个 内 核 可 以 通过 提供 多 个 protosw 项 为 同一 协议 提供 多 个 接口 。Protosw 结 构 的 定义 见 图 7-7。 


57 
58 


struct protosw { 
short pr. type; 


struct domain *pr domain; 


short pr protocol; 
short pr flags; 


/* protocol-protocol hooks */ 


void (^pr input) (): 
int (*pr output) (); 
void (*pr ectlinput) (); 
int (*pr.ctloutput) (); 


/* user-protocol hook */ 
int (*pr.usrreq) 
/* utility hooks */ 


[3 ; 


void (*pr init) (J; 
void (*pr fasttimo) (); 
void (*pr slowtimo) (); 
void (*pr.drain) (); 
int (*pr sysctl) (); 


protosw.h 


see (Figure 7.8) */ 

domain protocol a member of */ 
protocol number */ 

see Figure 7.9 */ 


input to protocol (from below) */ 
output to protocol (from above) */ 
control input (from below) */ 
control output (from above) */ 


user request from process */ 


initialization hook */ 
fast timeout (200ms) */ 
slow timeout (500ms) */ 
flush any excess space possible */ 
sysctl for protocol */ 


protosw.h 


图 7-7 protosw 结 构 的 定义 
57-61 此 结构 中 的 前 4 个 成 员 用 来 标识 和 表征 协议 。 pr type 指示 协议 的 通信 语义 。 图 7-8 
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列 出 了 pz_type 可 能 的 值 和 对 应 的 Internet 协 议 。 


SOCK STREAM n[ 3E EXC [8] 7E 73 E TCP 
SOCK DGRAM 最 好 的 运输 层 数据 报 服务 UDP 


SOCK RAW 最 好 的 网 络 层 数据 报 服务 ICMP，IGMP， 原 始 IP 
SOCK RDM 可 靠 的 数据 报 服务 (未 实现 ) n/a 
SOCK SEQPACKET 可 靠 的 双向 记录 流 服务 n/a 


图 7-8 pr_type 指 明 协 议 的 语义 


pr domain 指 向 相关 的 domain 结 构 ，pr_protocol 为 域 中 协议 的 编号 ,，pr_flags 
标识 协议 的 附加 特征 。 图 7-9 列 出 了 pr_flags 的 可 能 值 。 





PR ATOMIC 每 个 进程 请 求 映射 为 一 个 单个 的 协议 请 求 
PR ADDR 协议 在 每 个 数据 报 中 都 传递 地 址 

PR CONNREQUIRED 协议 是 面向 连接 的 

PR WANTRCVD 当 一 个 进程 接收 到 数据 时 通知 协议 

PR RIGHTS 协议 支持 访问 权限 





图 7-9 pr flags 的 值 


如 果 一 个 协议 支持 PR_RDDR ， 必 须 也 支持 PR_RATOMIC。PR_RADDR 和 
PR CONNREQUIREDX Z Jf $7, 

当 设 置 了 PR_NRNTRCVD， 并 当 插 口 层 将 插口 接收 缓存 中 的 数据 传递 给 一 个 进程 
时 ( 即 当 在 接收 缓存 中 有 更 多 空间 可 用 时 )， 它 通知 协议 层 。 

PR_RIGHTS 指 示 访 问 权 限 控 制 报 文 能 通过 连接 来 传递 。 访 问 权 限 要 求 内 核 中 的 
其 他 支持 来 确保 在 接收 进程 没有 销毁 报 文 时 能 完成 正确 的 清除 工作 。 仅 Unix 域 支持 
访问 权限 ， 在 那里 它们 用 来 在 进程 间 传 递 描 述 符 。 


图 7-10 所 示 的 是 协议 类 型 、 协 议 标 志和 协议 语义 间 的 关系 。 


| Internet | 其 他 | 


Ex |] 1: 
SOCK DGRAM m 
SOCK RAW [5X ism 


图 7-10 协议 特征 和 举例 





图 7-10 不 包括 标志 PR WANTRCVD 和 PR RIGHTS。 对 于 可 靠 的 面向 连接 的 协议 ， 
PR_WRNTRCVD 总 是 被 设置 。 
为 了 理解 Net/3 中 一 个 protosw 项 的 通信 语义 ， 我 们 必须 要 一 起 考虑 PRxxX 标 志和 
pr_type。 在 图 7-10 中 ， 我 们 用 两 列 (“ 是 否 有 记录 边界 ”和 “可 靠 否 ”) 来 摘 述 由 pz_type 
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隐 式 指示 的 语义 。 图 7-10 显 示 了 可 靠 协议 的 三 种 类 型 : 
。 面 向 连接 的 字 节 流 协议 ， 如 TCP 和 SPP( 源 于 XNS 协 议 族 )。 这 些 协 议 用 SOCK_STREAM 标 识 。 
。 有 记录 边界 的 面向 连接 的 流 协议 用 SOCK_SEQPACKET 标 识 。 在 这 种 协议 类 型 中 ， 
PR _ATOMIC 指 示 记 录 是 否 由 每 个 输出 请 求 隐 式 地 指定 ， 或 者 显 式 地 通过 在 输出 中 设置 
标志 MSG EOR 来 指定 。 
SPP 同 时 支持 语义 SOCK STREAM 和 SOCK SEQPACKET, 


。 第 三 种 可 靠 协 议 提 供 一 个 有 隐 式 记录 边界 的 面向 连接 服务 ， 它 由 SOCK_RDM 标 识 。RDP 
不 保证 按照 记录 发 送 的 顺序 接收 记录 。RDP 在 [Partridge 1987] 中 讨论 并 在 RFC 115 
[Partridge and Hinden 1990] 中 被 描述 。 

两 种 不 可 靠 协议 显示 在 图 7-10 中 : 

。 一 个 运输 层 数 据 报 协 议 ， 如 UDP， 它 包括 复 用 和 检验 和 ， 由 SOCK_DGRAM 指 定 。 

。 一 个 网 络 层 数据 报 协 议 ， 如 ICMP， 它 由 SOCK_RRAW 指 定 。 在 Net3 中 ， 只 有 超级 用 户 进 
程 才 能 创建 一 个 SOCK _ RAW 插口 (图 15-8)。 

62-68 接着 的 5 个 成 员 是 函数 指针 ， 用 来 提供 从 其 他 协议 对 此 协议 的 访问 。pr_input 处 理 
从 一 个 低层 协议 输入 的 数据 ，pr_output 处 理 从 一 个 高 层 协 议 输出 的 数据 ，pr_ctlinput 
处 理 来 自 下 层 的 控制 信息 ， 而 pr_ctloutput 处 理 来 自 上 层 的 控制 信息 。pr_usrreq 处 理 
来 自 进 程 的 所 有 通信 请 求 。 如 图 7-11 所 示 。 






pr. usrreq 


ROIG ENE APR (例如 read、write 等 等 ) 





pr_output 


(例如 路 由 域 输出 ) 


pr ctloutput 


(例如 插口 选项 ) 








pr input pr ctlinput 
(例如 到 达 TCP 分 组 ) (例如 ICMP 错 误 ) 


图 7-11 一 个 协议 的 5 个 主要 入 口 点 
69-75 剩 下 的 5 个 成 员 是 协议 的 实用 图 数 。pz_init 处 理 初 始 化 。PE_fasttimo 和 
pr_slowtimo 分 别 每 200 ms 和 500 ms 被 调用 来 执行 周期 性 的 协议 函数 ， 如 更 新 重 传 定时 器 。 
pr_drain 在 内 存 缺 乏 时 被 n_reclaim 调 用 (图 2-13)。 它 请 求 协议 释放 尽 可 能 多 的 内 存 。 
pr_sysct1 为 sysct1(8) 命 令 提 供 一 个 接口 ， 一 种 修改 系统 范围 的 参数 的 方式 ， 如 允许 转发 
分 组 或 UDP 检验 和 计算 。 


7.5 IP 的 domain 和 protosw 结 构 


声明 所 有 协议 的 结构 aomain 和 protosw， 并 进行 静态 初始 化 。 对 于 Internet 协 议 ， 
inetsw 数 组 包含 protosw 结 构 。 图 7-12 总 结 了 在 数组 ijnetsw 中 的 协议 信息 。 图 7-13 显 示 了 
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Internet 协 议 的 数组 定义 和 domain 结 构 的 定义 。 


Internetti% 
RES SOCK DGRAM 用 户 数 据 报 协议 UDP 
IPPROTO TCP SOCK STREAM 传输 控制 协议 TCP 
IPPROTO RAW SOCK RAW Internett iX (fi 45) IP( 原 始 ) 
IPPROTO ICMP SOCK RAW Internet 控 制 报 文 协议 ICMP 
IPPROTO IGMP SOCK RAW Internet 组 管理 协议 IGMP 
0 SOCK RAW Internet MX 025, EA) IP( 原 始 ) 





图 7-12 Internet 域 协议 





in proto.c 
39 struct protosw inetsw[] = 
40 ( 
41 (0, &inetdomain, 0, O0, 
42 0, ip output, O0, O0, 
43 0, 
44 ip init, 0, ip slowtimo, ip drain, ip sysctl 
45 ), 
46 (SOCK DGRAM, &inetdomain, IPPROTO UDP, PR ATOMIC | PR_ADDR, 
47 udp input, 0, udp ctlinput, ip ctloutput, 
48 udp usrreq, 
49 udp init, 0, 0, 0, udp.syscti 
50 Fa 
51 {SOCK_STREAM, &inetdomain, IPPROTO_TCP, PR_CONNREQUIRED | PR, WANTRCVD, 
52 tcp input, 0, tep.ctlinput, tcp ctloutput, 
53 tcp usrreq, 
54 tcp init, tcp fasttimo, tcp slowtimo, tcp drain, 
55 ), 
56 (SOCK RAW, &inetdomain, IPPROTO RAW, PR ATOMIC | PR ADDR, 
57 rip input, rip output, 0, rip ctloutput, 
58 rip usrreq, 
59 O0, BD, D, DO. 
60 ), 
61 (SOCK RAW, &inetdomain, IPPROTO ICMP, PR ATOMIC | PR ADDR, 
62 icmp input, rip output, 0, rip ctloutput, 
63 rip usrreq, 
64 0, O0, Or 0, lomp.svsctl 
65 Fy 
66 {SOCK_RAW, &inetdomain, IPPROTO_IGMP, PR_ATOMIC | PR_ADDR, 
67 igmp. input, rip output, 0, rip ctloutput, 
68 rip usrreq, 
69 igmp init, igmp fasttimo, O0, 0, 
70 bs 
T1 /* raw wildcard */ 
72 (SOCK RAW, &inetdomain, 0, PR ATOMIC | PR ADDR, 
73 rip input, rip output, 0, rip ctloutput, 
74 rip. usrreq, 
75 fip init, DO, 0, 0, 
76 F 
TT 3 
78 struct domain inetdomain - 
79 AF INET, "internet", O0, O0, OQ, 
80 inetsw, &inetsw[sizeof(inetsw) / sizeof(inetsw[0])], O0, 
81 rn inithead, 32, sizeof(struct sockaddr. in)); 
in proto.c 





图 7-13 Internet 的 domain 和 protosw 结 构 
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39-77 在 inetsw 数 组 中 的 3 个 protosw 结 构 提 供 对 IP 的 访问 。 第 一 个 inetsw[0], $R 
识 IP 的 管理 函数 并 且 只 能 由 内 核 访问 。 其 他 两 项 : inetsw[3] 和 inetsw[6]， 除 了 

pr_protocol 值 以 外 它们 是 一 样 的 ， 都 提供 到 IP 的 一 个 原始 接口 。inetsw[3] 处理 接收 到 

的 任何 未 识别 协议 的 分 组 。inetsw[6] 是 默认 的 原始 协议 ， 当 没有 找到 其 他 可 匹配 的 项 时 ， 
个 结构 由 函数 pffindproto 返 回 (7.6 市 )。 


在 Net/3 以 前 的 版 本 中 ， 通 过 inetsw[3] 传输 不 带 IP 首 部 的 分 组 ， 由 进程 负责 构 
造 正 确 的 首部 。 由 内 核 通过 ijnetsw[6] 传输 带 IP 首 部 的 分 组 。4.3BSD Reno 引 入 了 
IP HDRINCL 桥 口 选 项 (32.8 节 )， 这 样 在 jnetsw[3] 和 inetsw[6] 之 间 的 区 别 就 不 
再 重要 了 。 


原始 接口 允许 一 个 进程 发 送 和 接收 不 涉及 运输 层 的 IP 分 组 。 原 始 接口 的 一 个 用 途 是 实现 
内 核 外 的 传输 协议 。 一 旦 这 个 协议 稳定 下 来 ， 就 能 移植 到 内 核 中 改进 它 的 性 能 和 对 其 他 进程 
的 可 用 性 。 另 一 个 用 途 就 是 作为 诊断 工具 ， 如 traceroute， 它 使 用 原始 IP 接 口 来 直接 访问 
IP。 第 32 章 讨论 原始 IP 接 口 。 图 7-14 总 结 了 IP protosw 结 构 。 


pr. pr SOCK_RAW “IP 提供 原始 分 组 服务 | 

pr_domain &inetdomain &inetdomain 两 协议 都 是 Internet 域 的 一 部 分 

pr protocol 0 IPPROTO RAWELO IPPROTO_RAW(255) 和 0 都 是 
预 留 的 (RFC 1700)， 并 且 不 应 在 
一 个 IP 数 据 报 中 出 现 

pr flags 0 PR ATOMIC/PR ADDR 插口 层 标志 ，IP 不 使 用 

pr input null rip input 从 IP、ICMP 或 IGMP 接 收 未 识 
别 的 数据 报 

pr output ip output rip output 分 别 准 备 并 发 送 数据 报到 了 P 和 
硬件 层 

pr ctlinput null null IP 不 使 用 

pr ctloutput null rip ctloutput 响应 来 自 进程 的 配置 请 求 

pr usrreq null rip usrreq 响应 来 自 进程 的 协议 请 求 

pr init ip init nullzgkrip init ip_init 完 成 所 有 初始 化 

pr fasttimo null null IP 不 使 用 

pr slowtimo ip slowtimo null 用 于 IP 重 装 算法 的 慢 超 时 

pr drain ip drain null 如 果 可 能 ， 释 放 内 存 

pr sysctl ip sysctl null 修改 系统 范围 参数 





图 7-14 IP inetsw 的 条 目 


78-81 Internet 协 议 的 aomain 结 构 显 示 在 图 7-13 的 下 部 。Internet 域 使 用 AF_INET 风 格 编 址 ， 
文本 名 称 为 “intezrnet ` ， 没 有 初始 化 和 控制 报 文 国 数 ， 它 的 protosw 结 构 在 inetsw 数 
组 中 。 

Internet 协 议 的 路 由 初始 化 函数 是 xn_inithead。 一 个 下地 址 的 最 大 有 效 位 数 为 32， 并 
且 一 个 Internet 选 路 键 的 大 小 为 一 个 sockaddqr in 结构 的 大 小 (16 字 市 )。 


inetsw[3] 和 inetsw[6] 的 唯一 区 别 是 它们 的 pz _ OO 
rip_init， 它 仅 在 inetsw[6] 中 定义 ， 因 此 只 在 初始 化 期 间 被 调用 一 
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domainini tp% 


在 系统 初始 化 期 间 (图 3-23)， 内 核 调 用 domaininit 来 链接 结构 domain 和 protosw。 
domaininit 显 示 在 图 7-15 中 。 


: TEF : "Mom: uipc domain.c 
37 /* simplifies code in domaininit */ 


38 #define ADDDOMAIN (x) E X 

39 extern struct domain X CONCAT(x,domain); \ 
40 . CONCAT(x,domain.dom next) = domains; \ 

41 domains = & CONCAT(x,domain); \ 

42 ) 

43 domaininit() 

44 ( 

45 struct domain *dp; 

46 struct protosw *pr; 

47 /* The C compiler usually defines unix. We don't want to get 
48 * confused with the unix argument to ADDDOMAIN 
49 * f 

50 #undef unix 

51 ADDDOMAIN (unix); 

52 ADDDOMAIN (route); 

53 ADDDOMAIN (inet); 

54 ADDDOMAIN (iso); 

55 for (dp = domains; dp; dp = dp->dom_next) { 
56 if (dp-»dom init) 

57 (*dp-»dom init) (); 

58 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
59 if (pr-»pr init) 

60 (*pr-»pr init) (0); 

61 ) 

62 if (max linkhdr « 16) /* XXX */ 

63 max linkhdr - 16; 

64 max hdr = max linkhdr + max protohdr; 

65 max datalen - MHLEN - max hdr; 

66 timeout(pffasttimo, (void *) O, 1); 

67 timeout(pfslowtimo, (void *) O, 1); 

68 ) 


uipc domain.c 
图 7-15 负数 domaininit 


37-42 ADDDOMAIN 宏 声明 并 链接 一 个 domain 结 构 。 例 如 ， ADDDOMAIN(unix) 展 开 为 : 


extern struct domain unixdomain; 
unixdomain.dom next - domains; 
domains = &unixdomain; 


X CONCATZE X4 £&sys/defs.h'P, 并且 连 接 两 个 符号 名 。 例 如 _CONCARAT 
(unix，dqomain) 产 生 unixdomailDn。 
43-54 domaininit 通 过 调用 ADDDOMAIN 为 每 个 支持 的 域 构造 域 列表 。 


因为 符号 unix 常 常 被 C 预 处 理 器 预定 义 ， 因 此 ，Net/3 在 这 里 显 式 地 取消 它 的 全 
义 ， 使 ADDDOMRIN 能 正确 工作 。 
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图 7-16 显 示 了 链接 的 结构 domain 和 protosw， 它 们 配置 在 内 核 中 来 支持 Internet、Unix 
和 OSI 协议 族 。 


domains: 


isodomain: inetdomain: routedomain: unixdomain: 


图 7-16 初始 化 后 的 domain 链 表 和 protosw 数 组 


55-61 两 个 娩 套 的 for 循 环 查 找 内 核 中 的 每 个 域 和 协议 ， 并 且 若 定义 了 初始 化 函数 
dom_init 和 pr_init， 则 调用 它们 。 对 于 Internet 协 议 ， 调用 下 面 的 函数 (图 7-13): 
ip init, udp init, tcp init, igmp initfirip init, 

62-65 在 domaininit 中 计算 这 些 参 数 ， 用 来 控制 mbuf 中 分 组 的 格式 ， 以 避免 对 数据 的 额 
外 复制 。 在 协议 初始 化 期 间 设 置 了 -max linkhdr 和 max protohdr。 这 里 ,domaininit 
将 max_1linkhdr 强 制 设置 为 一 个 下 限 16。16 字 市 用 于 给 带 有 4 字 市 边界 的 14 字 市 以 太 网 首部 
留 出 空间 。 图 7-17 和 图 7-18 列 出 了 这 些 参数 和 典型 的 取 值 。 


max linkhdr 由 链 路 层 添加 的 最 大 字 市 数 





max protohdr EH 9d £& frs ig E S TET ACE 2 3 
max hdr max linkhdr + max protohdr 
max datalen 在 计算 了 链 路 和 协议 首部 后 的 分 组 首部 mubf 中 的 可 用 数据 字 节 数 
图 7-17 用 来 减少 协议 数据 复制 的 参数 
-一 mo 一 
m_har 和 和 ; 网 络 和 运 
- 
28 字 市 16 字 节 40 字 节 44 字 节 
MHLEN max linkhdr max protohdr max datalen 
一 一 一 128 字 节 


图 7-18 mbuf 和 相关 的 最 大 首部 长 度 


max protohdr 是 一 个 软 限 制 ， 估 算 预 期 的 协议 首部 大 小 。 在 Internet 域 中 ，IP 
和 TCP 首 部 长 度 通 常 为 20 字 节 ， 但 都 可 达到 60 字 节 。 长 度 超 过 max protohdr 的 代 
价 是 花 时 间 将 数据 向 后 移动 ， 以 留 出 比 预期 的 协议 首部 更 大 的 空间 。 
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66-68 aqaomaininit 通 过 调用 上 timeout 启 动 ptslowtimo 和 pffasttimo。 第 3 个 参数 指 
明 何 时 内 核 应 该 调用 这 个 国 数 ， 在 这 里 是 在 1 个 时 钟 和 滴答 内 。 两 个 国 数 都 显示 在 图 7-19 中 。 


uipc domain.c 





153 void 
154 pfslowtimo(arg) 
155 void *arg; 


156 1{ 

157 struct domain *dp; 

158 struct protosw *pr; 

159 for (dp = domains; dp; dp = dp-»dom next) 

160 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
161 if (pr-»pr slowtimo) 

162 (*pr-»pr slowtimo) (); 

163 timeout(pfslowtimo, (void *) 0, hz / 2); 

164 ) 

165 void 


166 pffasttimo(arg) 
167 void *arg; 


168 ( 

169 struct domain *dp; 

170 struct protosw *pr; 

171 for (dp = domains; dp; dp = dp-»dom next) 

172 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
173 if (pr-»pr fasttimo) 

174 (*pr-»pr fasttimo) (); 

175 timeout(pffasttimo, (void *) 0, hz / 5); 

176 ) 





uipc domain.c 


图 7-19 图 数 PpfsLowtimoe 和 pffasttimo 


153-176 这 两 个 相近 的 图 数 用 两 个 oz 循环 分 别 为 每 个 协议 调用 图 数 pz_s1owtimo 和 
pr _ fasttimo， 前 提 是 如 果 定 义 了 这 两 个 畏 数 。 这 两 个 图 数 每 500 ms 和 200 ms 通过 调用 
timeout 调 度 自己 一 次 ，timeout 在 图 3-43 中 讨论 过 。 


7.6 pffindprotodlüpffindtypet?Zi 


如 图 7-20 所 示 ， 函 数 pffindproto 和 pffindtype 通 过 编号 (例如 IPPROTO TCP) 或 类 
型 (例如 SOCK_STREAM) 来 查找 一 个 协议 。 如 我 们 在 第 15 章 要 看 到 的 ， 当 进程 创建 一 个 插口 时 ， 
这 两 个 畏 数 被 调用 来 查找 相应 的 przotosw 项 。 
69-84 pffindtype 线 性 搜索 domains， 查 找 指定 的 族 ， 然 后 在 域内 搜索 第 一 个 为 此 指定 
类 型 的 协议 。 
85-107 pffindproto 像 pffindtype 一 样 搜 索 domains， 查 找 由 调用 者 指定 的 族 、 类 型 
和 协议 。 如 果 pffindproto 在 指定 的 协议 族 中 没有 发 现 一 个 (protocol，type) 匹 配 项 ， 
并 且 type 为 SOCK_RAW， 而 此 域 有 一 个 默认 的 原始 协议 (pr_protocol 等 于 0)， 则 
pffindproto 选 择 默认 的 原始 协议 而 不 是 完全 失败 。 例 如 ， 一 个 调用 如 下 : 
pffindproto(PF INET, 27, SOCK RAW); 
它 返 回 一 个 指向 inet sw [6] 的 指针 ， 默 认 的 原始 IP 协 议 ， 因 为 Net/3 不 包括 对 协议 27 的 支持 。 
通过 访问 原始 IP， 一 个 进程 可 以 使 用 内 核 来 管理 IP 分 组 的 发 送 和 接收 ， 从 而 自己 实现 协议 27 
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服务 。 
协议 27 预 留 给 可 靠 的 数据 报 协议 (RFC 1151), 
两 个 函数 都 返回 一 个 所 选 协 议 的 protosw 结 构 的 指针 ; 或 者 ， 如 果 没 有 找到 匹配 项 ， 则 
返回 一 个 空 指针 。 


69 struct protosw * 
70 pffindtype (family, type) 


uipc domain.c 


Tl int family, type; 

"T2 i 

73 struct domain *dp; 

74 struct protosw *pr; 

79 for (dp = domains; dp; dp = dp-»dom next) 
76 if (dp->dom_family == family) 

TY goto found; 

78 return (0); 

79 found: 

80 for (pr = dp->dom protosw; pr < dp->dom protoswNPROTOSW; pr++) 
81 if (pr->pr_type && pr->pr_type == type) 
82 return (pr); 

83 return (0); 

84 ) 


85 struct protosw * 
86 pffindproto(family, protocol, type) 


87 int family, protocol, type; 

88 ( 

89 struct domain *dp; 

90 struct protosw *pr; 

91 struct protosw *maybe - 0; 

92 if (family == O0) 

93 return (0); 

94 for (dp = domains; dp; dp = dp-»dom next) 

95 if (dp-»dom family == family) 

96 goto found; 

9*7 return (0); 

98 found: 

99 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) ( 
100 if ((pr-»pr protocol -- protocol) && (pr-»pr type -- type)) 
101 return (pr); | 
102 if (type == SOCK RAW && pr-»pr type == SOCK RAW && 

103 pr-»pr protocol == 0 && maybe == (struct protosw *) 0) 
104 maybe - pr; 

105 ) 

106 return (maybe); 

107 ) 


uipc domain.c 


图 7-20 函数 pffindproto 和 pffindtype 


举例 
我 们 在 15.6 节 中 会 看 到 ， 当 一 个 应 用 程序 进行 下 面 的 调用 时 : 


socket (PF_INET, SOCK STREAM, 0); /* TCP 插口 */ 


pffindtype 被 调用 如 下 : 
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pffindtype(PF INET, SOCK STREAM); 

图 7-12 显 示 pffinatype 会 返回 一 个 指向 inetsw[2] 的 指针 ， 因 为 TCP 是 此 数组 中 第 一 
个 SOCK_STRERAM 协 议 。 同 样 ， 

Socket(PF INET, SOCK DGRAM, 0); /* UCP 插口 */ 


会 导致 


pffindtype(PF INET, SOCK DGRAM); 


它 返回 一 个 指向 inetsw[1] 中 UDP 的 指针 。 
7.7 pfctlinput ži 


函数 pfct1linput 给 每 个 域 中 的 每 个 协议 发 送 一 个 控制 请 求 (图 7-21)。 当 可 能 影响 每 个 协 
议 的 事件 发 生 时 ， 使 用 这 个 函数 ， 例 如 一 个 接口 被 关闭 ， 或 路 由 表 发 生 改变 。 当 一 个 ICMP 重 
定向 报 文 到 达 时 ，ICMP 调 用 pfct1linput (图 11-14)， 因 为 重 定向 会 影响 所 有 Internet 协 议 ( 例 


如 UDP 和 TCP)。 


uipc domain.c 
142 pfctlinput(cmd, sa) dn 


143 int cmd; 

144 struct sockaddr *sa; 

145 ( 

146 struct domain *dp; 

147 struct protosw *pr; 

148 for (dp - domains; dp; dp - dp-»dom next) 

149 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
150 if (pr-»pr ctlinput) 

151 (*pr-»pr ctlinput) (cmd, sa, (caddr t) 0); 

152 ) 


uipc domain.c 
图 7-21 mA pfctlinput 


142-152  Wi^Wk£ltor(ü&Wdkiks T E BRHEJAETWMMX. p£ctlinputilü EVA FH 4 UN iX 
的 pr_ctlinput 函 数 来 发 送 由 cmd 指 定 的 协议 控制 命令 。 对 于 UDP， 调 用 
udp ctlinput, 而 对 于 TCP， 调用 top ctlinput, 


7.8 IP 初始 化 


如 图 7-13 所 示 ，Internet 域 没有 一 个 初始 化 函数 ， 但 单个 Internet 协 议 有 。 现 在 ， 我 们 仅 查 
看 IP 初 始 化 函数 ip_init。 在 第 23 章 和 第 24 章 中 ， 我 们 讨论 UDP 和 TCP 初 始 化 函数 。 在 讨论 
这 些 代 码 前 ， 需 要 说 明 一 下 数组 ijp_protox。 


7.8.4 Internet 传 输 分 用 


一 个 网 络 层 协议 像 IP 必 须 分 用 输入 数据 报 ， 并 将 它们 传递 到 相应 的 运输 层 协议 。 为 了 完 
成 这 些 ， 相 应 的 protosw 结 构 必 须 通 过 一 个 在 数据 报 中 出 现 的 协议 编号 得 到 。 对 于 Internet 协 
议 ， 这 由 数组 jp_protox 来 完成 ， 如 图 7-22 所 示 。 

数组 ijp_protox 的 下 标 是 来 自 IP 首 部 的 协议 值 (ijp_p， 图 8-8)。 被 选项 是 jnet sw 数组 中 
处 理 此 数据 报 的 协议 的 下 标 。 例 如 ， 一 个 协议 编号 为 6 的 数据 报 由 inetsw[2] 处 理 ， 协 议 为 
TCP。 内 核 在 协议 初始 化 时 构造 ijp_protox， 如 图 7-23 所 示 。 
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ip DprotoxIl]: inetsw[]: 


E 

P 

^H 
H 





IP (原始 ) 






图 7-22 数组 ip_protox 将 协议 编号 映射 到 数组 inetsw 中 的 一 项 


Ul eoa ip input.c 

72 ip.initt() 

73 1 

74 struct protosw *pr; 

75 int 1; 

76 pr = pffindproto(PF INET, IPPROTO RAW, SOCK, RAW); 

73 if (pr == 0) 

78 panic("ip init"); 

79 for (i = 0; i < IPPROTO MAX; i++) 

80 ip protox[i] = pr - inetsw; 

81 for (pr = inetdomain.dom protosw; 

82 pr < inetdomain.dom protoswNPROTOSW; pr++) 

83 if (pr-»pr domain-»dom family == PF INET && 

84 pr-»pr protocol && pr-»pr protocol !- IPPROTO RAW) 

85 ip protox[pr-»pr protocol] = pr - inetsw; 

86 ipq.next = ipq.prev = &ipq; 

87 ip id = time.tv.sec & Oxffff; 

88 ipintrq.ifq maxlen - ipqmaxlen; 

89 i = (if index + 1) * (if index + 1) * sizeof(u long); 

90 ip ifmatrix = (u long *) malloc(i, M RTABLE, M WAITOK); 

91 bzero((char *) ip ifmatrix, i); 

92 ) "um 
ip input.c 


图 7-23 国 数 ip init 


7.8.2 ip init 


domaininit (图 7-15) 在 系统 初始 化 期 间 调用 图 数 iP_init。 

71-78 pffindproto 返 回 一 个 指向 原始 协议 (inetsw[3] ， 图 7-14) 的 指针 。 如 果 找 不 到 原 
始 协议 ，Net/3 就 调用 panic， 因 为 这 是 内 核 要 求 的 部 分 。 如 果 找 不 到 原始 协议 ， 内 核 一 定 被 
错误 配置 了 。IP 将 传输 到 一 个 未 知 传输 协议 的 到 达 分 组 传递 给 此 协议 ， 在 那里 它们 由 内 核 外 
部 的 一 个 进程 来 处 理 。 

79-85 接着 的 两 个 循环 初始 化 数组 ip_protox。 第 一 个 循环 将 数组 中 的 每 项 设置 为 pr， 即 
默认 协议 的 下 标 ( 图 7-22 中 为 3)。 第 二 个 循环 检查 ijnet sw 中 的 每 个 协议 (而 不 是 协议 编号 为 0 或 
IPPROTO_RAW 的 项 )， 并 且 将 ijp_protox 中 的 匹配 项 设置 为 引用 相应 的 jnet sw 项 。 为 此 ， 
每 个 protosw 结 构 中 的 pr_protocol 必 须 是 期 望 出 现在 输入 数据 报 中 的 协议 编号 。 
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86-92 ip_init 人 初始 化 IP 重 装 队 列 ipq(10.6 方 )， 用 系统 时 钟 植 和 人 ip_id， 并 将 IP 输 入 队列 
(ipintrq) 的 最 大 长 度 设置 为 50(ijpqmaxlen)。ip_id 用 系统 时 钟 设置 ， 为 数据 报 标识 符 提 
供 一 个 随机 起 点 (10.6 节 )。 最 后 ，ip_init 分 配 一 个 两 维 数 组 ip_ifmatrix， 统 计 在 系统 接 
口 之 则 路 由 的 分 组 数 。 


在 Net/3 中 ， 有 很 多 变量 可 以 被 一 个 系统 管理 员 修 改 。 为 了 允许 在 运行 时 改变 这 
些 变量 而 不 需 重 新 编译 内 核 ， 一 个 常量 (在 此 例 中 是 IFQ MAXLEN) 表 示 的 默认 值 在 编 
译 时 指派 给 一 个 变量 (ijpqmaxlen)。 一 个 系统 管理 员 能 使 用 一 个 内 核 调试 器 如 adb， 
来 修改 ijpqmaxlen， 并 用 新 值 重 启 内 核 。 如 果 图 7-23 直 接 使 用 IFQ MAXLEN， 它 会 
要 求 内 核 重 新 编译 来 改变 这 个 限制 。 


7.9 sysctl 系 统 调用 


系统 调用 sysct1 访 问 并 修改 NeV3 系 统 邯 围 参数 。 系 统管 理 员 通 过 程序 sysct1(8) 修 改 这 


些 参数 。 每 个 参数 由 一 个 分 层 的 整数 列表 来 标识 ， 并 有 一 个 相应 的 类 型 。 此 系统 调用 的 原型 为 : 


int sysctl(int *name, u int namelen, void *old, size t *oldlenp, void *new, size t newlen); 


*namei1g IR] —^ &, a namelen^- HRR. * old IRI XE JC TG EB PN X [BL HJ IH ÉE, * new I] 


在 此 范围 内 传递 的 新 值 。 


图 7-24 总 结 了 联网 名 称 的 组 织 情况 。 






CTL KERN 


CTL USER 


CTL NET 


PF INET 
PF OSI 


e 


IPPROTO IGMP 







IPCTL FORWARDING IPCTL DEFTTL 
IPCTL SENDREDIRECTS 
图 7-24 sysct1l 的 名 称 组 织 


在 图 7-24 中 ，IP 转 发 标志 的 全 名 为 : 


CTL NET, PF INET, 0, IPCTL FORWARDING 
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用 4 个 整数 存储 在 一 个 数组 中 。 
net sysctl 函 数 


每 层 的 sysct1 命 名 方案 通过 不 同 国 数 处 理 。 图 7-25 显 示 了 处 理 这 些 Internet 参 数 的 图 数 。 





net sysctl 






pr. sysctl 


IPCTL FORWARDING ` | ICMPCTL MASKREPL 
IPCTL SENDREDIRECTS ` ! 
IPCTL DEFTTL i 


UDPCTL_CHECKSUM 
图 7-25 处 理 Internet 参 数 的 sysct1 函数 


顶层 名 称 由 sysct1 处 理 。 网 络 层 名 称 由 net_sysct1 处 理 ， 它 根据 族 和 协议 将 控制 转 
给 此 协议 的 protosw 项 指定 的 pr_sysct1 国 数 。 


sysct1 在 内 核 中 通过 sysct1 函 数 实现 ， 函 数 _ sysct1 不 在 本 书 中 讨论 。 它 
包含 将 sysct1 参 数 传 给 内 核 和 从 内 核 取 出 sysct1 参 数 的 代码 及 一 个 Switch 语句， 
这 个 switch 语 和 揣 选 择 相 应 的 函数 来 处 理 这 些 参 数 ， 在 这 里 是 net_Sysct1l。 


图 7-26 所 示 的 是 图 数 net_sysctl。 
uipc domain.c 

108 net sysctl(name, namelen, oldp, oldlenp, newp, newlen, p) 
109 int *name; 
110 u int namelen; 
111 void *oldp; 
112 size t *oldlenp; 
113 void *newp; 
114 size t newlen; 
115 gtruct proc *p; 


iit I 

117 struct domain *dp; 

118 struct protosw "pr; 

119 int family, protocol; 

120 ,* 

121 * All sysctl names at this level are nonterminal; 
122 * next two components are protocol family and protocol number, 
123 * then at least one additional component. 

124 tf 

125 if (namelen « 3) 

126 return (EISDIR); /* overloaded */ 

127 family = name[0]; 

128 protocol - name[1]; 

129 if (family -- O0) 


图 7-26 国 数 net_sysct1l 
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130 return (0); 

131 for (dp - domains; dp; dp - dp-»dom next) 

132 if (dp-»dom family == family) 

133 goto found; 

134 return (ENOPROTOOPT); 

135 found: 

136 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 

137 if (pr-»pr protocol == protocol && pr-»pr sysctl) 

138 return ((*pr-»pr sysctl) (name + 2, namelen - 2, 

139 oldp, oldlenp, newp, newlen)); 

140 return (ENOPROTOOPT); 

141 ) 

uipc domain.c 
图 7-26 (23) 

108-119 net_sysctl1 的 参数 除了 增加 了 p 外 ， 同 系统 调用 sysct1 一 样 ，p 指 向 当前 进程 
结构 。 


120-134 在 名 称 中 接 下 来 的 两 个 整数 被 认为 是 在 结构 domain 和 protosw 中 指定 的 协议 族 
和 协议 编号 成 员 的 值 。 如 果 疫 有 指定 族 ， 则 返回 0。 如 果 指 定 了 族 ，foz 循 环 在 域 列 表 中 查找 
一 个 匹配 的 族 。 如 果 没 有 找到 ， 则 返回 EBNOPROTOOPT。 
135-141 如 果 找 到 匹配 域 , 第 二 个 Eor 循 环 查 找 第 一 个 定义 了 国 数 pr_sysct1 的 匹配 协议 。 
当 找 到 匹配 项 ， 将 请 求 传递 给 此 协议 的 pr_sysct1l 函 数 。 注 意 ， 把 (name+2) 指 向 的 整数 传 
递 给 下 一 级 。 如 果 没 有 找到 匹配 的 协议 ， 返 回 BNOPROTOOPT。 

图 7-27 所 示 的 是 为 Internet 协 议定 义 的 pr sysctliK A. 


Eo EREE 


G6 










ip sysctl 





IPPROTO UDP udp sysctl 


IPPROTO ICMP 





icmp sysctl 






图 7-27 Internet 协 议 族 的 pr _sysct1 国 数 


在 路 由 选择 域 中 ，pP_sysct1 指 向 国 数 sysct1_rtable， 它 在 第 19 章 中 讨论 。 
7.10 ”小结 


本 章 从 说 明 结 构 domain 和 protosw 开 始 ， 这 两 个 结构 在 Net/3 内 核 中 描述 及 组 织 协议 。 
我 们 看 到 一 个 域 的 所 有 protosw 结 构 在 编译 时 分 配 在 一 个 数组 中 ，inetdomain 和 数组 
inetsw 摘 述 Internet 协 议 。 我 们 仔细 查看 了 三 个 描述 了 了 协议 的 inetsw 项 : 一 个 用 于 内 核 访 问 
IP， 其 他 两 个 用 于 进程 访问 IP。 

在 系统 初始 化 时 ，domainint 将 域 链接 到 domains 列 表 中 ,调用 域 和 协议 初始 化 函数 ， 
并 调用 快速 和 慢 速 超时 函数 。 

两 个 尔 数 pffindproto 和 pffindtype 通 过 协议 号 或 类 型 搜索 域 和 协议 列表 。 
pfctlinput 发 送 一 个 控制 命令 给 所 有 协议 。 

最 后 ， 我 们 说 明了 IP 初 始 化 程序 ， 它 通过 数组 ip_protox 完 成 传输 分 用 。 


习题 
7. 由 谁 调 用 pfsfindpzroto 会 返回 一 个 指向 inetsw[6] 指针 9? 


Pe IP: 网 际 协议 


8.1 引言 


本 章 我 们 介绍 IP 分 组 的 结构 和 基本 的 IP 处 理 过 程 ， 包 括 输入 、 转 发 和 输出 。 假 定 读者 熟 
悉 IP 协 议 的 基本 操作 ， 其 他 IP 的 背景 知识 见 卷 1 的 第 3、9 和 12 章 。RFC 791 [Postel 1981a] 是 IP 
的 官方 规范 ，RFC 1122 [Braden 1989a] 中 有 RFC 791 的 说 明 。 

第 9 章 将 讨论 选项 的 处 理 ， 第 10 章 讨论 分 片 和 重 装 。 图 8-1 显 示 了 IP 层 常见 的 组 织 形式 。 






pinra JH 


网 络 


图 8-1 IP 层 的 处 理 


在 第 4 章 中 ， 我 们 看 到 了 网 络 接口 如 何 把 到 达 的 IP 分 组 放 到 IP 输 入 队列 ijpintrq 中 ， 并 如 
何 调用 一 个 软件 中 断 。 因 为 硬件 中 断 的 优先 级 比 软件 中 断 的 要 高 ， 所 以 在 发 生 一 次 软件 中 断 
之 前 ， 有 的 分 组 可 能 会 被 放 到 队列 中 。 在 软件 中 断 处 理 中 ，ipintr 函 数 不 断 从 ipintrq 中 
移 走 和 处 理 分 组 ， 直 到 队列 为 空 。 在 最 终 的 目的 地 ，IP 把 分 组 重 装 为 数据 报 ,并 通过 函数 调用 
把 该 数据 报 直接 传 给 适当 的 运输 层 协 议 。 如 果 分 组 没有 到 达 最 后 的 目的 地 ， 并 且 如 果 主 机 被 
配置 成 一 个 路 由 器 ， 则 IP 把 分 组 传 给 ijp_forward。 传 输 协 议和 ip_forward 把 要 输出 的 分 
组 传 给 ip_output， 由 ip_output 完 成 IP 首 部 、 选 择 输出 接口 以 及 在 必要 时 对 分 组 分 片 。 
最 终 的 分 组 被 传 给 合适 的 网 络 接口 输出 函数 。 

当 产生 差错 时 ，IP 丢 弃 该 分 组 ， 并 在 某 些 条 件 下 向 分 组 的 源 站 发 出 一 个 差错 报 文 。 这 些 
报 文 是 ICMP( 第 11 章 ) 的 一 部 分 。 Net/3 通 过 调用 icmp error 发 出 ICMP 差 错 报 文 ， icmp 
error 接 收 一 个 mbuf， 其 中 包含 差错 分 组 、 发 现 的 差错 类 型 以 及 一 个 选项 码 ， 提 供 依赖 于 差 
错 类 型 的 附加 信息 。 
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本 章 我 们 讨论 了 P 了 为 什么 以 及 何 时 发 送 ICMP 报 文 ， 至 于 有 关 ICMP 本 身 的 详细 讨论 将 在 第 
11 章 进行 。 
8.2 代码 介绍 

本 章 讨论 两 个 头 文件 和 三 个 C 文 件 。 如 图 8-2 所 示 。 


net/route.h 路 由 表 项 
netinet/ip.h IP 首 部 结构 


netinet/ip input.c IP 输 入 处 理 
netinet/ip output.c | IP 输 出 处 理 
netinet/ip  cksum.c Internet 检 验 和 算法 


图 8-2 本 章 描述 的 文件 





8.2.1 全 局 变量 
在 IP 处 理 代码 中 出 现 了 几 个 全 局 变量 ， 见 图 8-3。 


in ifaddr struct in  ifaddr * IP 地 址 清单 

ip defttl int IP 分 组 的 默认 TTL 

ip id int 赋 给 输出 的 了 了 分 组 的 上 一 个 ID 
ip protox int [] IP 分 组 的 分 路 矩阵 
ipforwarding int 系统 是 否 转发 IP 分 组 ? 
ipforward rt struct route 大 多 数 最 近 转 发 的 路 由 的 缓存 
ipintrq struct ifqueue IP 输 入 队列 

ipqmaxlen int IP 输 入 队列 的 最 大 长 度 
ipsendredirects | 系统 是 否 发 送 ICMP 重 定 同 ? 
ipstat struct ipstat IP 统 计 


图 8-3 本 章 中 引入 的 全 局 变量 





8.2.2 统计 量 


IP 收 集 的 所 有 统计 量 都 放 在 图 8-4 描 述 的 ijpstat 结 构 中 。 图 8-5 显 示 了 由 netstat-s 命 
令 得 到 的 一 些 统计 输出 样本 。 统 计 是 在 主机 启动 30 天 后 收集 的 。 


ips_badhlen IP 首 部 长 度 无 效 的 分 组 数 
ips_badlen IP 首 部 和 IP 数 据 长 度 不 一 致 的 分 组 数 
ips_badoptions 在 选项 处 理 中 发 现 差错 的 分 组 数 


ips_badsum 检验 和 差错 的 分 组 数 
ips badvers IP 版 本 不 是 4 的 分 组 数 
ips cantforward 目的 站 不 可 到 达 的 分 组 数 
ips delivered 癌 高 层 交 付 的 数据 报 数 





图 8-4 ”本章 收集 的 统计 量 
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ips forward 









转发 的 分 组 数 
分 片 丢失 数 (副本 或 空间 不 足 ) 
收 到 分 片 数 















ips fragdropped 
ips fragments 










ips fragtimeout 超时 的 分 片 数 

ips_noproto 具有 未 知 或 不 支持 的 协议 的 分 组 数 
ips reassembled 重 装 的 数据 报 数 

ips tooshort 具有 无 效 数 据 长 度 的 分 组 数 

ips toosmall 无 法 包含 了 了 分 组 的 太 小 的 分 组 数 






全 部 接收 到 的 分 组 数 


由 于 不 分 片 比特 而 丢弃 的 分 组 数 
成 功 分 片 的 数据 报 数 


ips total 


ips cantfrag 





ips fragmented 





ips localout 






ips noroute 







ips odropped 由 于 资源 不 足 丢 掉 的 分 组 数 
ips ofragments 为 输出 产生 的 分 片 数 

ips rawout 全 部 生成 的 原始 ip 分 组 数 
ips redirectsent 已 发 送 的 重 定 同 报 文 数 


图 8-4 (4%) 








系统 生成 的 数据 报 数 ( 即 没有 转发 的 ) 
丢弃 的 分 组 数 一 一 到 目的 地 没有 路 由 





















27,881,978 total packets received 

6 bad header checksums 

9 with size smaller than minimum 

14 with data size < data length 

0 with header length « data size 

0 with data length < header length 

0 with bad options 

0 with incorrect version number 

72,786 fragments received 

0 fragments dropped (dup or out of space) 
349 fragments dropped after timeout 
16,557 packets reassembled ok 

27,390,665 packets for this host 

330,882 packets for unknown/unsupported protocol 


97,939 packets forwarded 
6,228 packets not forwardable 
0 redirects sent 


29,447,726 packets sent from this host 

769 packets sent with fabricated ip header 

0 output packets dropped due to no bufs, etc. 
0 output packets discarded due to no route 
260,484 output datagrams fragmented 

796,084 fragments created 

0 datagrams that can't be fragmented 


图 8-5 卫 统 计 输出 样本 


ips_ noproto 的 值 很 高 ， 因 为 当 没 有 进程 准备 接收 报 文 时 ， 


不 可 达 报 文 进行 计数 。 见 32.5 凶 的 详细 讨论 。 


8.2.3 ” SNMP 变量 


ips_total 

ips badsum 

ips tooshort 
ips. toosmall 
ips badhlen 

ips badlen 

ips badoptions 
ips badvers 
ips. fragments 
ips. fragdropped 
ips. fragtimeout 


ips reassembled 
ips delivered 
ips noproto 


ips. forward 
ips cantforward 
ips redirectsent 


ips localout 
ips. rawout 

ips odropped 
ips. noroute 
ips. fragmented 
ips ofragments 
ips cantfrag 





图 8-6 显 示 了 IP 组 和 Net/3 收 集 的 统计 中 的 SNMP 变 量 之 则 的 关系 。 


它 能 对 ICMP 主 机 
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ipDefaultTTL ip defttl TUETREUSRIATTL(ABE) 
ipForwarding ipforwarding 系统 是 路 由 器 吗 ? 
ipReasmTimeout IPFRAGTTL 分 片 的 重 装 超时 (30 秒 ) 


的 全 部 分组 


ipInHdrErrors ips badsum- IP 首 部 出 错 的 分 组 数 
ips_tooshort+ 
ips_toosmall+ 
ips_badhlen+ 
ips_badlen+ 


ips_badoptions+ 


ips_badvers 


ipInAddrErrors ips cantforward 由 于 错误 交付 而 丢弃 的 了 P 分 组 数 (ip_output 也 失败 ) 


ipForwDatagrams ips forward 转发 的 IP 分 组 数 
ipReasmReqds ips fragments 收 到 的 分 片 数 
ipReasmFails ips fragdropped-« 丢失 的 分 片 数 

ips fragtimeout 
ipReasmOKs ips reassembled 成 功 地 重 装 的 数据 报 数 
ipInDiscards (未 实现 ) 由 于 资源 限制 而 丢弃 的 数据 报 数 
ipInUnknownProtos | ips noproto 具有 未 知 或 不 支持 的 协议 的 数据 报 数 
ipInDelivers ips delivered 交付 到 运输 层 的 数据 报 数 
ipOutRequests ips localout 由 运输 层 产生 的 数据 报 数 
ipFragOKs ips fragmented 分 片 成 功 的 数据 报 数 
iPFragFails ips cantfrag 由 于 不 分 片 位 丢弃 的 IP 分 组 数 
ipFragCreates ips ofragments 为 输出 产生 的 分 片 数 
ipOutDiscards ips odropped 由 于 资源 短缺 丢失 的 IP 分 组 数 
ipOutRoutes ips noroute 由 于 设 有 路 由 丢弃 的 了 了 分 组 数 


图 8-6 IP 组 中 SNMP 变 量 的 例子 





8.3 ”IP 分 组 


为 了 更 准确 地 讨论 Internet 协 议 处 理 ， 我 们 必须 定义 一 些 名 词 。 图 8-7 显 示 了 在 不 同 的 
Internet 层 之 旧 传 递 数据 时 用 来 朱 述 数据 的 名 词 。 

我 们 把 传输 协议 交 给 IP 的 数据 称 为 报 文 。 典 型 的 报 文 包含 一 个 运输 层 首部 和 应 用 程序 数 
据 。 图 8-7 所 示 的 传输 协议 是 UDP。IP 在 报 文 的 首部 前 加 上 它 自己 的 首部 形成 一 个 数据 报 。 如 
果 在 选 定 的 网 络 中 ， 数 据 报 的 长 度 太 大 ，IP 就 把 数据 报 分 裂 成 几 个 分 片 ， 每 个 分 片 中 含有 它 
自己 的 IP 首 部 和 一 段 原来 数据 报 的 数据 。 图 8-7 显 示 了 一 个 数据 报 被 分 成 三 个 分 片 。 

当 提 交 给 数据 链 路 层 进 行 传送 时 ， 一 个 IP 分 片 或 一 个 很 小 的 无 须 分 片 的 卫 数 据 报 称 为 分 
组 。 数 据 链 路 层 在 分 组 前 面 加 上 它 自己 的 首部 ， 并 发 送 得 到 的 帧 。 

IP 只 考虑 它 自己 加 上 的 IP 首 部 ， 对 报 文本 身 既 不 检查 也 不 修改 (除非 进行 分 片 )。 图 8-8 显 
示 了 IP 首 部 的 结构 。 

图 8-8 包 括 ip 结 构 ( 如 图 8-9) 中 各 成 员 的 名 字 ，Net/3 通 过 该 结构 访问 IP 首 部 。 

47-67 因为 在 存储 器 中 ， 位 字段 的 物理 顺序 依 机 絮 和 编译 絮 的 不 同 而 不 同 ， 所 以 由 #ifs 保 
证 编译 器 按照 卫 标 准 排列 结构 成 员 。 从 而 ， 当 NetU3 把 一 个 ip 结构 覆盖 到 存储 器 中 的 一 个 IP 分 
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组 上 时 ， 结 构成 员 能 够 访问 到 分 组 中 的 正确 位 。 
—  — : 
T m E 
-一 5 一 - 


uad e o FEET! has] a — DE EN 
— i 


图 8-7 帧 、 分 组 、 分 片 、 数 据 报 和 报 文 





I5 16 
ip v ip h ipi dm ip len 
IY 标志 和 分 片 偏 移 
ip id ip off 





ip: ttl ip p ip ckeum 
32 位 源 耳 地 址 
ip src 
324r H BSIPRERE 
ip dst 






图 8-8 IP 数 据 报 ， 包 括 ip 结 构 名 


ip.h 
48 7* P 
41 * Structure of an internet header, naked of options. 
42 * 


43 * We declare ip len and ip off to be short, rather than u short 
44 * pragmatically since otherwise unsigned comparisons can result 
45 * against negative integers quite easily, and fail in subtle ways. 
46 二/ 

47 struct ip ( 

48 #if BYTE ORDER == LITTLE ENDIAN 


49 u char ip hl:4, /* header length */ 
50 ip v:4; /* version */ 

51 #endif 

52 #if BYTE ORDER == BIG ENDIAN 

53 u char ip v:4, /* version */ 

54 ip hl:4; /* header length */ 
55 #endif 


图 8-9 ”ip 结构 
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56 u char ip tos; /* type of service */ 
57 short ip len; /* total length */ 
58 u short ip id; ` /* identification */ 
59 short ip off; /* fragment offset field */ 
60 #define IP DF 0x4000 /* dont fragment flag */ 
61 #define IP MF 0x2000 /* more fragments flag */ 
62 4$define IP OFFMASK Oxlfff /* mask for fragmenting bits */ 
63 ü char ib ttl; /* time to live */ 
64 u char ip p; /* protocol */ 
65 u short ip sum; /* checksum */ 
66 struct in_addr ip src, ip dst; /* source and dest address */ 
67 }; 
MÀ MÀ ip 
图 8-9 (£x) 


IP 首 部 中 包含 卫 分 组 格式 、 内 容 、 寻 址 、 路 由 选择 以 及 分 请 的 信息 。 

IP 分 组 的 格式 由 版 本 ip_v 指 定 ， 通 常 为 4 首部 长 度 ip_hl， 通常 以 4 字 市 单元 度量 ; 分 
组 长 度 ip_len 以 字 节 为 单位 度量 ,传输 协议 ip_p 生 成 分 组 内 数据 ，ip_sum 是 检验 和 ， 检 
测 在 发 送 中 首部 的 变化 。 

标准 的 IP 首 部 长 度 是 20 个 字 节 ， 所 以 ip_h1 必 须 大 于 或 等 于 5。 大 于 5 表示 IP 选 项 紧 跟 在 
标准 首部 后 。 如 ip_hl 的 最 大 值 为 15 (2-1), feri &40/- 5E 8936382040260), IPH 
报 的 最 大 长 度 为 65 535 (2 一 1) 字 节 ， 因 为 jp_len 是 一 个 16 位 的 字段 。 图 8-10 是 整个 构成 。 


I — —— Gp nix XE NUNC 
标准 首部 | | | *B o € 
(20*r-72) gm". 
e—— ————— P lon 
te DM 


图 8-10 有 选项 的 卫 分 组 构成 
因为 ip _ hl 是 以 4 字 节 为 单元 计算 的 ， 所 以 IP 选 项 必须 常常 被 填充 成 4 字 节 的 倍数 。 
8.4 输入 处 理 ，ipintr 函 数 


在 第 3 ~5 章 中 ， 我 们 描述 了 示例 的 网 络 接口 如 何 对 到 达 的 数据 报 排队 以 等 待 协 
议 处 理 : 

1) 以 太 网 接口 用 以 太 网 首部 中 的 类 型 字段 分 路 到 达 帧 ( 见 4.3 市 )， 

2) SLIP 接 口 只 处 理 IP 分 组 ， 所 以 无 须 分 用 ( 见 5.3 证 )，; 

3) 环 回 接口 在 looutput 函 数 中 结合 输入 和 输出 处 理 ， 用 目的 地 址 中 的 sa_family 成 员 
对 数据 报 分 用 ( 见 5.4 证 )。 

在 以 上 情况 中 ， 当 接口 把 分 组 放 到 ipintrq 上 排队 后 ， 通 过 schednetisr 调 用 一 个 软 
中 断 。 当 该 软 中 断 发 生 时 ， 如 果 IP 处 理 过 程 已 经 由 schednetisr 调 度 ， 则 内 核 调用 ipintr。 
在 调用 ipintr 之 前 ，CPU 的 优先 级 被 改变 成 splnet。 


8.4.1 ipintr 概 观 


ipintr 是 一 个 大 函数 ， 我 们 将 在 4 个 部 分 中 讨论 (1) 对 到 达 分 组 进行 验证 ，(2) 选 项 处 理 
及 转发 ;(3) 分 组 重 装 ; (4) 分 用 。 在 ijpintr 中 发 生 分 组 的 重 装 ， 但 比较 复杂 ， 我 们 将 单独 放 
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在 第 10 章 中 讨论 。 图 8-11 显 示 了 ipintr 的 整体 结构 。 


100 void Wt 
101 ipintr() 

102 ( 

103 struct ip *ip; 

104 struct mbuf *m; 

105 struct ipq *fp; 

106 struct in ifaddr "ia; 

107 int hlen, S; 

108 next: 

109 /* 

110 * Get next datagram off input queue and get IP header 
111 * in first mbuf. 

112 */ 

113 s = 8Splimp(); 

114 IF DEQUEUE(&ipintrq, m); 

145 Splx(s); 

116 if (m == 0) 

117 return; 





332 goto next; 

333 bad: 

334 m freem (m); 
335 goto next; 

336 ) 





ip input.c 
图 8-11 ipintrrAZ 


100-117 标号 next 标 识 主要 的 分 组 处 理 循 环 的 开始 。ipintr 从 ipintrq 中 移 走 分 组 ， 并 
对 之 加 以 处 理 直 到 整个 队列 空 为 止 。 如 果 到 函数 最 后 控制 失败 ，goto 把 控制 权 传 回 给 next 
中 最 上 面 的 函数 。ipintr 把 分 组 阻塞 在 splimp 内 ， 避 免 当 它 访问 队列 时 ， 运 行 网 络 的 中 断 
程序 (例如 slinput 和 ether input), 

332-336 ”标号 bad 标 识 由 于 释放 相关 mbuf 并 返回 到 next 中 处 理 循环 的 开始 而 自动 丢弃 的 


分 组 。 在 整个 ijpintr 中 ， 都 是 跳 到 bad 来 处 理 差 错 。 


8.4.2 验证 


我 们 从 图 8-12 开 始 : 把 分 组 从 ipintrq 中 取出 ， 验 证 它们 的 内 容 。 损 坏 和 有 差错 的 分 组 
UH SES. 


118 /* PRPS 
119 * If no IP addresses have been set yet but the interfaces 

120 * are receiving, can’t do anything with incoming packets yet. 

121 a i 

I2 if (in ifaddr == NULL) 

123 goto bad; 

124 ipstat.ips total-*-*; 

125 if (m-»m len « sizeof(struct ip) && 


. 图 8-12 ipintrrA7K 
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126 (m = m pullup(m, sizeof(struct ip))) == O) ( 
127 ipstat.ips. toosmall-4-*; 
128 goto next; 
129 ) 
130 ip = mtod(m, struct ip *); 
131 if (ip-»ip v != IPVERSION) ( 
132 ipstat.ips badvers-**; 
133 goto bad; 
134 } 
135 hlen = ip-»ip hl << 2; 
136 if (hlen « sizeof(struct ip)) ( /* minimum header length */ 
137 ipstat.ips badhlen--*; 
138 goto bad; 
139 ) 
140 if (hlen » m-»m len) ( 
141 if ((m2 m pullup(m, hlen)) == 0) ( 
142 ipstat.ips badhlen--*; 
143 goto next; 
144 ) 
145 ip = mtod(m, struct ip *); 
146 ) 
147 if (ip-»ip sum - in, cksum(m, hlen)) ( 
148 ipstat.ips badsum-*-*; 
149 goto bad; 
150 ) 
151 i 
152 * Convert fields to host representation. 
153 *J 
154 NTOHS (ip-»ip len); 
155 if (ip-»ip len < hlen) ( 
156 ipstat.ips badlen--; 
157 goto bad; 
158 ) 
159 NTOHS (ip-»ip id); 
160 NTOHS(ip-»ip off); 
161 a 
162 * Check that the amount of data in the buffers 
163 * is as at least much as the IP header would have us expect. 
164 * Trim mbufs if longer than we expect. 
165 * Drop packet if shorter than we expect. 
166 "y 
167 if (m-»m pkthdr.len « ip-»ip len) ( 
168 ipstat.ips tooshort--*; 
169 goto bad; 
170 ) 
171 if (m-»m pkthdr.len > ip-»ip len) ( 
172 if (m-»m len == m-»m pkthdr.len) { 
173 m-»m len - ip-»ip len; 
174 m-»m pkthdr.len = ip-»ip len; 
175 ) else 
176 m adj(m, ip-»ip len - m-»m pkthdr.len); 
177 ) ip input.c 
[&8-12 (£x) 
1. IP Æ 


118-134 如果 in_ifaddr 表 ( 见 6.5 节 ) 为 空 ， 则 该 网 络 接口 没有 指派 耻 地 址 ，ipintzr 必 须 
丢掉 所 有 的 IP 分 组 ,没有 地 址 ，ipintr 就 无 法 决定 该 分 组 是 否 要 到 该 系统 。 通 常 这 是 一 种 暂 
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时 情况 ， 是 当 系 统 启 动 时 ， 接 口 正在 运行 但 还 没有 配置 好 时 发 生 的 。 我 们 在 6.3 市 中 介绍 了 地 
址 如 何 分 配 的 问题 。 
在 ipintr 访 问 任何 IP 首 部 字段 之 前 ， 它 必须 证 实 ip_v 是 4(IPVERSION)。RFC 1122 要 求 
某 种 实现 丢弃 那些 具有 无 法 识别 版 本 号 的 分 组 而 不 回 显 信息 。 
Net/2 不 检查 ipP_V。 目 前 大 多 数 正 在 使 用 的 IP 实 现 (包括 Net2)， 都 是 在 IP 的 版 
本 4 之 后 产生 的 ， 因 此 无 须 区 分 不 同 IP 版 本 的 分 组 。 因 为 目前 正在 对 IP 进 行 修正 ， 所 
以 将 来 的 实现 都 会 检查 ijp_v。 
IEN 119 [Forgie 1979] 和 RFC 1190 [Topolcic 1990] 描述 了 使 用 了 版 本 5 和 6 的 实 
验 协 议 。 版 本 6 还 被 选 为 下 一 个 正式 的 IP 标 准 (IPv6)。 人 和 保留 版 本 0 和 15， 其 他 的 没有 
赋值 。 
在 C 中 ， 处 理 位 于 一 个 无 类 型 存储 区 域 中 数据 的 最 简单 的 方法 是 : 在 该 存储 区 域 上 有 覆盖 一 
个 结构 ， 转 而 处 理 该 结构 中 的 各 个 成 员 ， 而 不 再 对 原始 的 字 市 进行 操作 。 如 第 2 章 所 言 ，mbuf 
链 把 一 个 字 市 的 逻辑 序列 (例如 一 个 IP 分 组 ) 储存 在 多 个 物理 mbuf 中 ， 各 mbuf 相 互 连 接 在 一 
个 链表 上 。 因 为 覆盖 技术 也 可 用 于 IP 分 组 的 首部 ， 所 以 首部 必须 驻 留 在 一 段 连续 的 存储 区 内 
(也 就 是 说 ， 不 能 把 首部 分 开放 在 不 同 的 存储 器 缓存 区 中 )。 
135-146 下 面 的 步骤 保证 卫 首 部 (包括 选项 ) 位 于 一 段 连续 的 存储 妖 缓 存 区 上 : 
。 如果 在 第 一 个 mbuf 中 的 数据 小 于 一 个 标准 的 IP 首 部 (20 字 市 )，m_pullup 会 重新 把 该 标 
准 首 部 放 到 一 个 连续 的 存储 器 缓存 区 上 去 。 


链 路 层 不 太 可 能 会 把 最 大 的 (60 字 节 ) IP 首 部 分 在 两 个 mbuf 中 从 而 使 用 上 面 的 
m pullup, 


。 ip_h1 通 过 乘 以 4 得 到 首部 字 节 长 度 ， 并 将 其 保存 在 hlen 中 。 
。 如 果 IP 分 组 首部 的 字 节 数 长 度 hlen 小 于 标准 首部 (20 字 节 )， 将 是 无 效 的 并 被 丢弃 。 
。 如 果 整 个 首部 仍然 不 在 第 一 个 mbuf 中 (也 就 是 说 ,分 组 包含 了 IP 选 项 )， 则 由 m_pullup 
完成 其 任务 。 
同样 ， 这 不 一 定 是 必需 的 。 
检验 和 计算 是 所 有 Internet 协 议 的 重要 组 成 。 所 有 的 协议 均 使 用 相同 的 算法 (由 函数 
in_cksum 完 成 )， 但 应 用 于 分 组 的 不 同 部 分 。 对 IP 来 说 ， 检 验 和 只 保证 IP 的 首部 (以 及 选项 ， 
如 果 有 的 话 )。 对 传输 协议 ， 如 UDP 或 TCP， 检 验 和 覆盖 了 分 组 的 数据 部 分 和 运输 层 首 部 。 
2. IP 检 验 和 
147-150 ipintr 把 由 in_cksum 计 算出 来 的 检验 和 保存 在 首部 的 jp_sum 字 段 中 。 一 个 未 
被 破坏 的 首部 应 该 具有 0 检验 和 。 
正如 我 们 将 在 8.7 节 中 看 到 的 ， 在 计算 到 达 分 组 的 检验 和 之 前 ， 必 须 将 ip suma 
霍 。 通 过 把 in_cksum 中 的 结果 储存 在 ip_sum 中 ， 就 为 分 组 转发 做 好 了 准备 (尽管 还 
SUR GUPTIL) ip output 函 数 不 依 赖 这 项 操作 ; 它 为 转发 的 分 组 重新 计算 检验 和 。 
如 果 结 果 非 0， 则 该 分 组 被 自动 丢弃 。 我 们 将 在 8.7 节 中 详细 讨论 in_cksum。 
3. 字 节 顺序 
151-160 Internet 标 准 在 指定 协议 首部 中 多 字 贡 整数 值 的 字 节 顺序 时 非常 小 心 。NTOHS 把 了 
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首部 中 所 有 16 位 的 值 从 网 络 字 市 序 转换 成 主机 字 市 序 : 分 组 长 度 (ip_len)、 数 据 报 标识 符 
(ip_iqd) 和 分 片 偏 移 (ijp_off)。 如 果 两 种 格式 相同 ， 则 NTOHS 是 一 个 空 的 宏 。 在 这 里 就 转换 
成 主机 字 节 序 ， 以 避免 NeU3 每 次 检查 该 字段 时 必须 进行 一 次 转换 。 
4. 分 组 长 度 
161-177 如 果 分 组 的 逻辑 长 度 (ip_len) 比 储存 在 mbuf 中 的 数据 量 (m_pkthdr . 1en) 大 ， 
并 且 有 些 字 节 丢 失 了 ， 就 必须 丢弃 该 分 组 。 如 果 mbuf 比 分 组 大 ， 则 去 掉 多 余 的 字 古 。 
去 失 字 节 的 一 个 常见 原因 是 ， 数 据 到 达 某 个 没有 或 只 有 很 少 缓存 的 串口 设备 ， 
例如 许多 个 人 计算 机 。 设 备 丢 弃 到 达 的 字 节 ， 而 IP 丢 弃 最 后 的 分 组 。 
多 余 的 字 节 可 能 产生 ， 如 在 某 个 以 太 网 设备 上 ， 当 一 个 IP 分 组 的 大 小 比 以 太 网 至 
求 的 最 小 长 度 还 小 时 。 发 送 该 帧 时 加 上 的 多 余 字 节 就 在 这 里 被 丢掉 。 这 就 是 IP 分 组 
的 长 度 被 保存 在 首部 的 原因 之 一 ; IP 允 许 链 路 层 填 充分 组 。 
现在 ， 有 了 完整 的 IP 首 部 ， 分 组 的 逻辑 长 度 和 物理 长 度 相 同 ， 检 验 和 表明 分 组 的 首部 无 
损 地 到 达 。 


8.4.3 转发 或 不 转发 


图 8-13 显 示 了 ipintz 的 下 一 部 分 ， 调 用 ip_dqooptions( 见 第 9 章 ) 来 处 理 卫 了 选项， 然后 
决定 分 组 是 否 到 达 它 最 后 的 目的 地 。 如 果 分 组 没有 到 达 最 后 的 目的 地 ，Net/3 会 尝试 转发 该 分 
组 (如 果 系 统 被 配置 成 路 由 器 )。 如 果 分 组 到 达 最 后 的 目的 地 ， 就 被 交付 给 合适 的 运输 层 协议 。 


T ip input.c 
179 * Process options and, if not destined for us, 

180 * ship it on. ip dooptions returns 1 when an 

181 * error was detected (causing an icmp message 

182 * to be sent and the original packet to be freed). 

183 *J 

184 ip nhops - 0; /* for source routed packets */ 

185 if (hlen > sizeof(struct ip) && ip. dooptions (m)) 

186 goto next; ! 

187 g" 

188 * Check our list of addresses, to see if the packet is for us. 
189 ai i 

190 for (ia = in ifaddr; ia; ia = ia->ia_next) { 

191 #define satosin(sa) ((struct sockaddr in *)(sa)) 

192 if (IA, SIN(ia)-»sin, addr.s, addr == ip-»ip.dst.s, addr) 

193 goto ours; 

194 /* Only examine broadcast addresses for the receiving interface */ 
195 if (ia-»ia ifp -- m-»m pkthdr.rcvif && 

196 (ia-»ia ifp-»if flags & IFF BROADCAST)) ( 

197 u long t: 

198 if (satosin(&ia-»ia, broadaddr)-»sin, addr.s, addr == 

199 ip-»ip dst.s, addr) 

200 goto ours; 

201 if (ip-»ip dst.s addr == ia-»ia netbroadcast.s, addr) 


图 8-13 ££ipintr 
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202 goto ours; 

203 Aka : 

204 * Look for all-O's host part (old broadcast addr), 
205 * either for subnet or net. 
206 "T 

207 t = ntohl(ip-»ip dst.s addr); 
208 if (t == ia-»ia subnet) 

209 goto ours; 

210 if (t z- ia-»ia net) 

Aid goto ours; 

"A ) 

413 ) 





258 if (ip-»ip dst.s addr -- (u long) INADDR BROADCAST) 
259 goto ours; 

260 if (ip-»ip dst.s addr == INADDR, ANY) 

261 goto ours; 

262 ;" 

263 * Not for us; forward if possible and desirable. 
264 a i 

265 if (ipforwarding == O0) ( 

266 ipstat.ips cantforward--; 

267 m freem(m); 

268 ) else 

269 ip forward(m, 0); 

270 goto next; 


271 Ours: 





ip input.c 


图 8-13 (fx) 


1. 选项 处 理 
178-186 通过 对 ip_nhops( 见 9.6 节 ) 清 零 ， 丢 掉 前 一 个 分 组 的 原 路 由 。 如 果 分 组 首部 大 于 
默认 首部 ， 它 必然 包含 由 ip_dooptions 处 理 的 选项 。 如 果 ip_dooptions 返 回 0， 
ipintr 将 继续 处 理 该 分 组 ， 否则 ，ip_dooptions 通 过 转发 或 丢弃 分 组 完成 对 该 分 组 的 处 
理 ，ipintr 可 以 处 理 输入 队列 中 的 下 一 个 分 组 。 我 们 把 对 选项 的 进一步 讨论 放 到 第 9 章 进行 。 

处 理 完 选 项 后 ，ipintr 通 过 把 IP 首 部 内 的 ijp_adst 与 配置 的 所 有 本 地 接口 的 IP 地 址 进行 
比较 ， 以 确定 分 组 是 否 已 到 达 最 终 目的 地 。ipintr 必 须 考虑 与 接口 相关 的 几 个 广播 地 址 、 一 
个 或 多 个 单 播 地 址 以 及 任意 个 多 播 地 址 。 

2. 最 终 目 的 地 
187-261 ipintriüib5in ifaddr( 图 6-5)， 配 置 好 的 Internet 地 址 表 ， 来 确定 是 否 有 与 
分 组 的 目的 地 址 的 匹配 。 对 清单 中 的 每 个 jn_ifaddr 结 构 进 行 一 系列 的 比较 。 要 考虑 4 种 常 
见 的 情况 : 

。 与 某 个 接口 地 址 完全 匹配 (图 8-14 中 的 第 一 行 ); 

。 与 某 个 与 接收 接口 相关 的 广播 地 址 匹配 (图 8-14 的 中 间 4 行 )》 

。 与 某 个 与 接收 接口 相关 的 多 播 组 之 一 匹配 (图 12-39); 

。 与 两 个 受 限 的 广播 地 址 之 一 匹配 (图 8-14 的 最 后 一 行 )。 
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图 8-14 显 示 的 是 当 分 组 到 达 示 例 网 络 中 主机 sun 上 的 以 太 网 接口 时 要 测试 的 地 址 ， 将 在 第 
12 章 中 讨论 的 多 播 地 址 除外 。 


WC ANN MC NE ON 以 太 网 Ex | dis 
ia adár EEL I [IE 
To 252. B 33 140.252.1.29 
















ia broadaddr 198-200 


ia netbroadcast 201-202 









207-209 





lia. subnet 





210-211 






ia nét 





140.25200 











INADDR_BROADCAST 258~259 








209.255.299.299 









260~261 





INADDR_ANY 





0.0.0.0 





图 8-14 为 判定 分 组 是 否 到 达 最 终 目的 地 进行 的 比较 


对 ia_subnet、ia_net 和 INRDDR_RANY 的 测试 不 是 必需 的 ， 因 为 它们 表示 的 
是 4.2BSD 使 用 的 已 经 过 时 的 广播 地 址 。 但 不 幸 的 是 ， 许 多 TCP/IP 实 现 是 从 4.2BSD 派 
生 而 来 的 ， 所 以 ， 在 某 些 网 络 中 能 够 识别 出 这 些 旧 广播 地 址 可 能 十 分 重要 。 


3. 转发 
262-271 如 果 ip_dst 与 所 有 地 址 都 不 匹配 ， 分 组 还 没有 到 达 最 终 目 的 地 。 如 果 还 没有 设置 
ipforwarding， 就 丢弃 分 组 。 否则 ，ip_forward 尝 试 把 分 组 路 由 到 它 的 最 终 目 的 地 ，。 


当 分 组 到 达 的 某 个 地 址 不 是 目的 地 址 指定 的 接口 时 ,主机 会 丢掉 该 分 组 。 在 这 
种 情况 下 ，Net/3 将 搜索 整个 in ifaddr 表 ; 只 考虑 那些 分 配给 接收 接口 的 地 址 。 
RFC 1122 4536 7] 5$ 35 f t% (strong end System) 模 型 。 

对 多 主 主 机 而 言 ， 很 少 出 现 分 组 到 达 接 口 地 址 与 其 目的 地 址 不 对 应 的 情况 ， 除 
非 配 置 了 特定 的 主机 路 由 。 主 机 路 由 强迫 相 邻 的 路 由 器 把 多 主 主 机 作为 分 组 的 下 一 
Hk h 2, 5535 A (weak end System) 模 型 要 求 该 主机 接收 这 些 分 组 。 实 现 人 员 可 以 
随意 选择 两 种 模型 。Net/3 实 现 弱 该 系统 模型 。 


8.4. 重 装 和 分 用 


最 后 ， 我 们 来 看 ipintz 的 最 后 一 部 分 (图 8-15)， 在 这 里 进行 重 装 和 分 用 。 我 们 略 去 了 重 
装 的 代码 ， 将 其 推迟 到 第 10 章 讨论 。 当 无 法 重 装 完全 的 数据 报时 ， 略 去 的 代码 将 把 指针 ip 设 
空 。 人 否则 ，ip 指 癌 一 个 已 经 到 达 目 的 地 的 完整 数据 报 。 
运输 分 用 
325-332 数据 报 中 指定 的 协议 被 ip_p 用 ip_protox 数 组 (图 7-22) 映 射 到 inet sw 数组 的 下 
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标 。ipintr 调 用 选 定 的 protosw 结 构 中 的 pr_input 函 数 来 处 理 数据 报 包 含 的 运输 报 文 。 
Mpr inputjA[BHB], ipintr 继 续 处 理 ijpintrq 中 的 下 一 个 分 组 。 

注意 ， 运 输 层 对 分 组 的 处 理发 生 在 ijpintr 处 理 循环 的 内 部 。 在 IP 和 传输 协议 之 间 没 有 到 
达 分 组 的 排队 ， 这 与 TCP/IP 中 SVR4 流 实现 的 排队 不 同 。 


ip input.c 





325 y* 

326 * If control reaches here, ip points to a complete datagram. 

327 * Otherwise, the reassembly code jumps back to next (Figure 8.11) 
328 * Switch out to protocol's input routine. 

329 ej 

330 ipstat.ips delivered--; 

331 (*inetsw[ip protox[ip-»ip pll.pr input) (m, hlen); 

332 goto next; 


ip input.c 
图 8-15 £Xipintr 


8.5 转发 : ip forward ži 


到 达 非 最 终 目 的 地 系统 的 分 组 需要 被 转发 。 只 有 当 ipforwarding 非 零 (6.1 证 ) 或 当 分 组 
中 包含 源 路 由 (9.6 节 ) 时 ，ipintr 才 调用 实现 转发 算法 的 ijp_forward 函 数 。 当 分 组 中 包含 
源 路 由 时 ，ip_dooptions 调 用 ip_forward， 并 是 第 2 个 参数 srcrt 设 为 1。 

ip forward 通 过 图 8-16 中 显示 的 route 结 构 与 路 由 表 接 口 。 


route.h 
45 struct route { 
47 struct rtentry *ro.rt; /* pointer to struct with information */ 
48 struct sockaddr ro. dst; /* destination of this route */ 
49 ); 
route.h 


图 8-16 route 结 构 


46-49 route 结 构 有 两 个 成 员 ro _ rt， 指向 rtentry 结 构 的 指针 ; ro dst, 一 个 
sockaddr 结 构 ， 指 定 与 ro_rt 所 指 的 路 由 项 相关 的 目的 地 。 目 的 地 是 在 内 核 的 路 由 表 中 用 
来 查找 路 由 信息 的 关键 字 。 第 18 章 对 rtentry 结 构 和 路 由 表 有 详细 的 描述 。 
我 们 分 两 部 分 讨论 ip_forward。 第 一 部 分 确定 允许 系统 转发 分 组 ， 修 改 IP 首 部 ， 并 为 分 
组 选择 路 由 。 第 二 部 分 处 理 ICMP 重 定向 报 文 ， 并 把 分 组 交 给 ip_output 进 行 发 送 。 见 图 8-17。 
1. 分 组 适合 转发 吗 
867-871 ip forward 的 第 1 个 参数 是 指向 一 个 mbuf 链 的 指针 ， 该 mbuf 中 包含 了 要 被 转发 
的 分 组 。 如 果 第 2 个 参数 srcrt 为 非 零 ， 则 分 组 由 于 源 路 由 选项 ( 见 9.6 市 ) 正 在 被 转发 。 
879-884 if 语句 识别 并 丢弃 以 下 分 组 。 
。 链 路 层 广 播 。 任 何 支 持 广播 的 网 络 接口 驱动 器 必须 为 收 到 的 广播 分 组 把 M_BCRAST 标 志 
置 位 。 如 果 分 组 寻 址 是 到 以 太 网 广播 地 址 ， 则 ether_input( 图 4-13) 就 把 M_BCRAST 置 
位 。 不 转发 链 路 层 的 广播 分 组 。 
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RFC 1122 不 允许 以 链 路 层 广 播 的 方式 发 送 一 个 寻 址 到 单 播 IP 地 址 的 分 组 ， 并 在 

这 里 将 该 分 组 丢掉 。 

。 环 回 分 组 。 对 寻 址 到 环 回 网 络 的 分 组 ，in_canforward 返 回 0。 这 些 分 组 将 被 ipintz 

提交 给 jp_forward， 因 为 没有 正确 配置 反馈 接口 。 

。 网 络 0 和 E 类 地 址 。 对 这 些 分 组 ，in_canforward 返 回 0。 这 些 目的 地 址 是 无 效 的 ， 而 

上 且 因为 没有 主机 接收 这 些 分 组 ， 所 以 它们 不 应 该 继续 在 网 络 中 流动 。 

“DD 类 地 址 。 寻 址 到 DD 类 地 址 的 分 组 应 该 由 多 播 冰 数 ijp_mforward 而 不 是 由 

ip forward 处 理 。in canforward 拒 绝 D 类 (多 播 ) 地 址 。 

RFC 791 规定 处 理 分 组 的 所 有 系统 都 必须 把 生存 时 间 (TTL) 字 段 至 少 减 去 1， 即 使 TITL 是 
以 秒 计算 的 。 由 于 这 个 要 求 ，TTL 通 常 被 认为 是 对 IP 分 组 在 被 丢掉 之 前 能 经 过 的 跳 数 的 界限 。 
从 技术 角度 说 ， 如 果 路 由 恬 持 有 分 组 超过 1 秒 ， 就 必须 把 ip_tt1 减 去 大 于 1 的 值 。 





867 void Spe 
868 ip forward(m, srcrt) 

869 struct mbuf *m; 

870 int srcrt; 

871 ( 

872 struct ip *ip = mtod(m, struct ip *); 

873 struct sockaddr in *sin; 

874 struct rtentry *rt; 

875 int error, type - O0, code; 

876 struct mbuf *mcopy; 

877 n long dest; 

878 struct ifnet *destifp; 

879 dest = 0; 

880 if (m-»m flags & M BCAST || in canforward(ip-»ip dst) == 0) ( 
881 ipstat.ips cantforward--; 

882 m freem(m); 

883 return; 

884 ) 

885 HTONS(ip-»ip id); 

886 i: if (ip-»ip ttl <= IPTTLDEC) ( 

887 icmp error(m, ICMP TIMXCEED, ICMP TIMXCEED INTRANS, dest, 0); 
888 return; 

889 ) 

890 ip-»ip ttl -- IPTTLDEC; 

891 sin - (struct sockaddr in *) &ipforward rt.ro dst; 
892 if ((rt = ipforward rt.ro rt) == 0 || 

893 ip-»ip dst.s addr !- sin-»sin addr.s addr) ( 
894 if (ipforward rt.ro rt) ( 

895 RTFREE(ipforward rt.ro rt); 

896 ipforward rt.ro.rt s 0; 

897 ) 

898 sin-»sin family - AF INET; 

899 sin-»sin len = sizeof(*sin); 

900 sin-»sin addr = ip-»ip dst; 

901 rtalloc(&ipforward rt); 


图 8-17 ip forward 函数 : 路 由 选择 
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902 lf (ipforward rt.ro EE se 0) ( 


903 icmp error(m, ICMP UNREACH, ICMP UNREACH HOST, dest, 0); 
904 return; 

905 ) 

906 rt = i1pforward rt.ro ft; 

907 ) 

908 A” 

909 * Save at most 64 bytes of the packet in case 

910 * we need to generate an ICMP message to the src. 

911 */ 

912 mcopy - m copy(m, 0, imin((int) ip-»ip len, 64)); 

913 ip ifmatrix[rt-»rt ifp-»if index + 

914 if index * m-»m pkthdr.rcvif-»if index]-«*; 


ip input.c 


图 8-17 (fx) 


这 就 产生 了 一 个 问题 : 在 Internet 上 ， 最 长 的 路 径 有 多 长 ? 这 个 度量 称 为 网 络 的 
直径 (diameter)。 除 了 通过 实验 外 无 法 知道 直径 的 大 小 。[Olivier 1994] 中 有 37 跳 的 
路 径 。 


2. 减 小 TTL 
885-890 由 于 转发 时 不 再 需要 分 组 的 标识 符 ， 所 以 标识 符 又 被 转换 回 网 络 字 市 序 。 但 是 当 
ip_forward 发 送 包 含 无 效 IP 首 部 的 ICMP 差 错 报 文 时 ,分 组 的 标识 符 又 应 该 是 正确 的 顺序 。 

Net/3 泼 做 了 对 已 被 ijpintr 转 换 成 主机 字 节 序 的 jp len 的 转换 。 作 者 注意 到 在 

大 癌 模 式 的 机 器 上 ， 这 不 会 产生 问题 ， 因 为 从 未 对 字 节 进行 过 转 挽 。 但 在 小 应 模式 

的 机 器 如 386 上 ， 这 个 小 的 漏洞 允许 交换 了 字 节 的 值 在 ICMP 差 错 的 IP 首 部 中 。 从 运 

行 在 386 上 的 SVR4( 可 能 是 Net/1 码 ) 和 AIX3.2(4.3BSD Reno 码 ) 返 回 的 ICMP 分 组 中 可 

以 观察 到 这 个 小 的 漏洞 。 

如 果 ip tt1 达 到 1(IPTTLDEC)， 则 向 发 送 方 返回 一 个 ICMP 超 时 报 文 ， 并 丢 抒 该 分 组 。 
否则 ，ip forward 把 ip tt1 减 去 IPTTLDEC。 

系统 不 接受 TTL 为 0 的 IP 数 据 报 ， 但 Net/3 在 即使 出 现 这 种 情况 时 也 能 生成 正确 的 ICMP 差 
错 ， 因 为 P_tt1 是 在 分 组 被 认为 是 在 本 地 交付 之 后 和 被 转发 之 前 检测 的 。 

3. 定位 下 一 跳 
891-907 IP 转发 算法 把 最 近 的 路 由 缓存 在 全 局 route 结 构 的 ijpforward_rt 中 ,在 可 能 上 
应 用 于 当前 分 组 。 研 究 表 明 连 续 分 组 趋同 于 同一 目的 地 址 ([Jain 和 Routhier 1986] 和 [Mogul 
1991])， 所 以 这 种 向 后 一 个 (one-behind) 的 缓存 使 路 由 查询 的 次 数 最 少 。 如 果 缓 存 为 空 
(ipforward_rt) 或 当前 分 组 的 目的 地 不 是 ijpforward_rt 中 的 路 由 ， 就 取消 前 面 的 路 由 ， 
ro_dst 被 初始 化 成 新 的 目的 地 ，rtalloc 为 当前 分 组 的 目的 地 找 一 个 新 路 由 。 如 来 找 不 到 
路 由 ， 则 返回 一 个 ICMP 主 机 不 可 达 差 错 ， 并 丢掉 该 分 组 。 
908-914 由 于 在 产生 差错 时 ，ip_output 要 丢掉 分 组 ， 所 以 m_copy 复 制 分 组 的 前 64 个 字 
节 ， 以 便 ip_forward 发 送 ICMP 差 错 报 文 。 如 果 调 用 m_copy 失 败 ，ip_forward 并 不 终止 。 
在 这 种 情况 下 ， 不 发 送 差错 报 文 。ip ifmatrix 记 录 在 接口 之 间 进 行路 由 选择 的 分 组 的 个 
数 。 具 有 接收 和 发 送 接口 索引 的 计数 器 是 递增 的 。 
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重 定向 报 文 


当主 机 错误 地 选择 亲 个 路 由 器 作为 分 组 的 第 一 跳 路 由 器 时 ， 该 路 由 器 癌 源 主机 返回 一 个 
ICMP 重 定 同 报 文 。IP 网 络 互 连 模型 假定 主机 不 知道 整个 互联 网 的 拓扑 结构 ， 把 维护 正确 路 由 
选择 的 责任 交 给 路 由 絮 。 路 由 器 发 出 重 定向 报 文 是 同 主机 表明 它 为 分 组 选择 了 一 个 不 正确 的 
路 由 。 我 们 用 图 8-18 说 明 重 定 向 报 文 。 





"mp. us C m — - 


默认 网 络 目的 网 络 
图 8-18 FH RISE J-PLHS (E HER H a8 R2$IGSHD 


通常 ， 管 理 员 对 主机 的 配置 是 把 到 远程 网 络 的 分 组 发 送 到 某 个 默认 路 由 器 上 。 在 图 8-18 
中 ， 主 机 HS 上 R1 被 配置 成 它 的 默认 路 由 器 。 当 HS 首次 同 HD 发 送 分 组 时 ， 它 不 知道 R2 是 合适 
的 选择 ， 而 把 分 组 发 给 R1。R1 识 别 出 差错 ， 就 把 分 组 转发 给 R2， 并 向 HS 发 回 一 个 重 定 癌 报 
文 。 接 收 到 重 定向 报 文 后 ，HS 更 新 它 的 路 由 表 ， 下 一 次 发 往 HD 的 分 组 就 直接 发 给 R2。 

RFC 1122 推 荐 只 有 路 由 器 才 发 重 定向 报 文 ， 而 主机 在 接收 到 ICMP 重 定向 报 文 后 必须 更 新 
它们 的 路 由 表 (11.8 节 )。 因 为 Net/3 只 在 系统 被 配置 成 路 由 器 时 才 调 用 ip_forward， 所 以 
Net/3 采 用 RFC 1122 的 推荐 。 

在 图 8-19 中 ，ip_forward 决 定 是 否 发 重 定 同 报 文 。 

1. 在 接收 接口 上 离开 吗 
915-929 路 由 器 识别 重 定向 情况 的 规则 很 复杂 。 首 先 ， 只 有 在 同一 接口 (rt_ifp 和 
rcvif) 上 接收 或 重 发 分 组 时 ， 才 能 应 用 重 定 同 。 基 次， 被 选择 的 路 由 本 身 必须 没有 被 ICMP 
重 定 疝 报 文 创建 或 修改 过 (RTF_DYNAMIC|RTF _ MODIFIED)， 而 且 该 路 由 也 不 能 是 到 默认 目 
的 地 的 (0.0.0.0)。 这 就 保证 系统 在 未 授权 时 不 会 生成 路 由 选择 信息 ， 并 且 不 与 其 他 系统 共享 自 
己 的 默认 路 由 。 


通常 ， 路 由 选择 协议 使 用 特殊 目的 地 址 0.0.0.0 定 位 默认 路 由 。 当 到 某 目 的 地 的 某 
个 路 由 不 能 使 用 时 ， 与 目的 地 0.0.0.0 相 关 的 路 由 就 把 分 组 定向 到 一 个 默认 路 由 器 上 。 


178 TCP/IP Ž#® %2: 实现 


第 18 章 对 默认 路 由 有 详细 的 讨论 。 
全 局 整数 ijpsendredirects 指 定 系 统 是 否 被 授权 发 送 重 定 同 (8.9 证 )， 
ipsendredirects 的 默认 值 为 1。 当 传 给 ip forward 的 参数 srcrt 指 明 系 统 是 对 分 组 路 
由 选择 的 源 时 ， 禁 止 系统 重 定 向， 因为 假定 源 主 机 要 禾 盖 中 间 路 由 如 的 选择 。 


"epe js ip input.c 

916 * If forwarding packet is using same interface that it came in on, 

917 * perhaps should send a redirect to sender to shortcut a hop. 

918 * Only send redirect if source is sending directly to us, 

919 * and if packet was not source routed (or has any options). 

920 * Also, don't send redirect if forwarding using a default route 

921 * or a route modified by a redirect. 

922 "q 

923 #define satosin(sa) ((struct sockaddr in *)(sa)) 

924 if (rt-»rt ifp == m-»m pkthdr.rcvif && 

925 (rt-»rt flags & (RTF DYNAMIC | RTF MODIFIED)) == 0 && 

926 satosin(rt key(rt))-»sin addr.s addr !- 0 && 

927 ipsendredirects && !srcrt) ( 

928 #define RTA(rt) ((struct in ifaddr *)(rt-»rt ifa)) 

929 u long src = ntohl(ip-»ip src.s addr); 

930 if (RTA(rt) && 

931 (src & RTA(rt)-»ia subnetmask) == RTA(rt)-»ia subnet) ( 

932 if (rt-»rt flags & RTF GATEWAY) 

933 dest = satosin(rt-»rt gateway)-»sin addr.s addr; 

934 else 

935 dest - ip-»ip dst.s addr; 

936 /* Router requirements says to only send host redirects */ 

937 type = ICMP_REDIRECT; 

938 code = ICMP REDIRECT HOST; 

939 ) 

940 ) "um 

ip input.c 

图 8-19 ip forward( 续 ) 

2. 发 送 重 定 问 吗 


930-931 ”这 个 测试 决定 分 组 是 否 产 生 于 本 地 子 网 。 如 采 源 地 址 的 子 网 掩 码 位 和 输出 接口 的 
地 址 相同 ， 则 两 个 地 址 位 于 同一 IP 网 络 中 。 如 果 源 接口 和 输出 的 接口 位 于 同一 网 络 中 ， 则 该 
系统 就 不 应 该 接收 这 个 分 组 ， 因 为 源 站 可 能 已 经 把 分 组 发 给 正确 的 第 一 跳 路 由 器 了 。ICMP 重 
定 疝 报 文告 诉 主 机 正确 的 第 一 跳 目 的 地 。 如 末 分 组 产生 于 其 他 子 网 ， 则 前 一 系统 是 个 路 由 器 ， 
这 个 系统 就 不 应 该 发 重 定 同 报 文 ， 差错 由 路 由 选择 协议 纠正 。 


在 任何 情况 下 ， 都 要 求 路 由 器 忽略 重 定 向 报 文 。 尽 管 如 此 ， 当 ipforwarding 
被 置 位 时 (也 就 是 说 ， 当 它 被 配置 成 路 由 器 时 )，Net/3 并 不 丢掉 重 定 向 报 文 。 


3. 选择 合适 的 路 由 如 
932-940 ICMP 重 定向 报 文中 包含 正确 的 下 一 个 系统 的 地 址 ， 如 果 目 的 主机 不 在 直接 相连 的 
网 络 上 ， 该 地 址 是 一 个 路 由 如 的 地 址 ， 当 目的 主机 在 直接 相连 的 网 络 中 时 ， 该 地 址 古 主 机 
地 址 。 ; 

RFC 79248 | X ;EIRHROCHJARRAS 7H: (1 网 络 ，(2) 主 机 ，(3)TIOS 和 网 络 ，(4)TOS 和 主 
BL. RFC 1009 推 荐 在 任何 时 候 都 不 发 送 网 络 重 定 回报 文 ， 因 为 无 法 保证 接收 到 重 定 阿 报 文 的 
主机 能 为 目的 网 络 找到 合适 的 子 网 掩 码 。RFC 1122 推 存 主 机 把 网 络 重 定 加 看 作 是 主机 重 定 回 ， 
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以 避免 二 义 性 。Net/3 只 发 送 主 机 重 定向 报 文 ， 并 省 略 所 有 对 TOS 的 考虑 。 在 图 8-20 中 ， 
ipintz 把 分 组 和 所 有 的 ICMP 报 文 都 提交 给 链 路 层 。 


ip input.c 
941 error = ip output(m, (struct mbuf *) 0, &ipforward rt, 
942 IP FORWARDING | IP ALLOWBROADCAST, 0); 
943 if (error) 
944 ipstat.ips cantforward-4-*; 
945 else ( 
946 ipstat.ips. forward-*-*; 
947 if (type) 
948 ipstat.ips redirectsent--*; 
949 else ( 
950 if (mcopy) 
951 m freem(mcopy); 
952 return; 
953 T 
954 } 
955 if (mcopy == NULL) 
956 return; 
957 destifp = NULL; 
958 switch (error) { 
959 case O0: /* forwarded, but need redirect */ 
960 /* type, code set above */ 
961 break; 
962 case ENETUNREACH: /* shouldn't happen, checked above */ 
963 case EHOSTUNREACH: 
964 case ENETDOWN: 
965 case EHOSTDOWN: 
966 default: 
967 type - ICMP UNREACH; 
968 code - ICMP UNREACH HOST; 
969 break; 
970 case EMSGSIZE: 
9771 type - ICMP UNREACH; 
972 code = ICMP UNREACH, NEEDFRAG; 
973 if (ipforward rt.ro rt) 
974 destifp = ipforward rt.ro rt-»rt ifp; 
975 ipstat.ips cantfrag-*-*; 
976 break; 
977 case ENOBUFS: 
978 type = ICMP_SOURCEQUENCH; 
979 code = 0; 
980 break; 
981 ) 
982 icmp error(mcopy, type, code, dest, destifp); 
983 ) T 
ip input.c 


图 8-20 ip forward (£X) 


重 定 向 报 文 的 标准 化 是 在 子 网 化 之 前 ， 在 一 个 非 子 网 化 的 互联 网 中 ， 网 络 重 定 
向 很 有 用 ， 但 在 一 个 子 网 化 的 互联 网 中 ， 由 于 重 定向 报 文中 没有 有 关子 网 掩 码 的 信 
息 ， 所 以 容易 产生 二 义 性 。 
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4. 转发 分 组 
941-954 现在 ，ip_forward 有 一 个 路 由 ， 并 决定 是 否 需 要 ICMP 重 定向 报 文 。ip_ 
output 把 分 组 发 送 到 路 由 ipforward rt 所 指定 的 下 一 跳 。IP_ALLOWBROADCAST 标 志 位 
允许 被 转发 分 组 是 个 到 某 局 域 网 的 广播 。 如 果 ip_output 成 功 ， 并 且 不 需要 发 送 任何 重 定向 
报 文 ， 则 丢掉 分 组 的 前 64 字 节 ，ip_forward 返 回 。 

5. 发 送 ICMP 差 错 报 文 吗 
955-983 ip_forward 可 能 会 由 于 ip_output 失 败 或 重 定 向 而 发 送 ICMP 报 文 。 如 果 没 有 
原始 分 组 的 复制 (可 能 当 要 复制 时 ， 曾 经 缓存 不 足 ) ， 则 无 法 发 送 重 定 癌 报 文 ，ip_forward 
返回 。 如 果 有 重 定 同 ，type 和 code 以 前 已 被 置 位 ， 但 如 果 ip_output 失 败 ，switch 语 句 
会 基于 从 ip_output 返 回 的 值 重 新 设置 新 的 ICMP 类 型 和 码 值 。icmp_error 会 发 送 该 报 文 。 
来 目 失败 的 ip_output 的 ICMP 报 文 将 覆盖 任何 重 定向 报 文 。 

处 理 来 和 目 ip_output 的 差错 的 switch 语 名 非常 重要 。 它 把 本 地 差错 翻译 成 适当 的 
ICMP 差 错 报 文 ， 并 返回 给 分 组 的 源 站 。 图 8-21 对 差错 做 了 总 结 。 第 11 章 更 详细 地 描述 了 
ICMP 报 文 。 

当 ip_output 返 回 ENOBUEFS 时 ，Net/3 通 常生 成 ICMP 源 站 抑制 报 文 。Router 

Requirements( 路 由 器 需求 )RFC [Almquist 和 Kastenholz 1994] 不 赞成 源 站 抑制 并 要 求 

路 由 器 不 产生 这 种 报 文 。 


EMSGSIZE ICMP UNREACH NEEDFRAG 对 所 选 的 接口 来 说 ， 发 出 的 分 组 太 大 ， 
并 且 禁 止 分 片 (第 10 章 ) 

ENOBUFS ICMP SOURCEQUENCH 接口 队列 满 或 内 核 运行 内 存 不 足 。 本 报 
文身 源 主机 指示 降低 数据 率 


EHOSTUNREACH 找 不 到 到 主机 的 路 由 

ENETDOWN 路 由 指明 的 输出 接口 没 在 运行 

EHOSTDOWN ICMP UNREACH HOST 接口 无 法 把 分 组 发 给 选 定 的 主机 

default 所 有 不 识别 的 差错 均 作 为 ICMP_UNRERACH 
HOST 差错 报告 





图 8-21 来 自 ip_output 的 差错 


8.6 输出 处 理 : iP output Až 


IP 输 出 代码 从 ip_forward 和 运输 协议 (图 8-1) 接 收 分 组 。 让 inetsw[0] .pr_output 能 
访问 到 IP 输 出 操作 似乎 很 有 道理 ， 但 事实 并 非 如 此 。 标 准 的 Internet 传 输 协议 IICMP、IGMP.、 
UDP 和 TCP) 直 接 调 用 ip output， 而 不 查询 jnetsw 表 。 对 标准 Internet 传 输 协议 而 言 ， 
protosw 结 构 不 必 具 有 一 般 性 ， 因 为 调用 函数 并 不 是 在 与 协议 无 关 的 情况 下 接 入 IP 的 。 在 第 
20 章 中 ， 我 们 将 看 到 与 协议 无 关 的 路 由 选择 插口 调用 pr_output 接 入 IP。 

我 们 分 三 个 部 分 描述 ip output: 

* 首部 初始 化 ; 

。 路 由 选择 ， 

* 源 地 址 选择 和 分 片 。 
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8.6.1 首部 初始 化 


图 8-22 显 示 了 ip_output 的 第 一 部 分 ， 把 选项 与 外 出 的 分 组 合并 ， 完 成 传输 协议 提交 (不 
是 ip_forward 提 交 的 ) 的 分 组 首部 。 
44-59 传 给 ip_output 的 参数 包括 : m0， 要 发 送 的 分 组 ，opt ， 包 含 的 IP 选 项 ，ro， 缓 存 
的 到 目的 地 的 路 由 ，flags， 见 图 8-23，imo， 指 向 多 播 选 项 的 指针 ， 见 第 12 章 。 

IP FORWARDINGHiip _forward 和 ip_mforward (多 播 分 组 转发 ) 设置 ， 并 禁止 
ip_output 重 新 设置 任何 IP 首 部 字段 。 


44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
39 


60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
TO 
76 


Spes ip output.c 
ip output(m0, opt, ro, flags, imo) 
struct mbuf *m0; 
struct mbuf *opt; 
struct route *ro; 
int flags; 
struct ip moptions *imo; 
( 
struct ip *ip, *mhip; 
struct ifnet *ifp; 
struct mbuf *m - m0; 
int hlen = sizeof(struct ip); 
int len, off, error = 0; 
struct route iproute; 
struct sockaddr in *dst; 
struct in ifaddr *ia; 


if (opt) ( 
m - ip insertoptions(m, opt, &len); 
hlen - len; 
) 
ip = mtod(m, struct ip *): 
/* 
* Fill in IP header. 
ai i 
if ((flags & (IP FORWARDING | IP RAWOUTPUT)) == 0) ( 
ip-»ip v = IPVERSION; 
ip-»ip off &- IP DF; 
ip-»ip id = htons(ip id-*-*); 
ip-»ip hl = hlen >> 2; 
ipstat.ips localout-*-*; 
) else ( 
hlen = ip-»ip hl < 2; 


) 
ip output.c 


图 8-22 Krip output 


IP FORWARDING 这 是 一 个 转发 过 的 分 组 


IP ROUTETOIF 忽略 路 由 表 ， 直 接 路 由 到 接口 
IP ALLOWBROADCAST | 允许 发 送 广 播 分 组 
IP RAWOUTPUT 包含 一 个 预 构 IP 首 部 的 分 组 





图 8-23 ip output: flag 值 
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send、sendto 和 sendmsg 的 MSG _DONTROUTE 标 志 使 IP_ROUTETOIF 有 效 ， 并 进行 一 
次 写 操作 ( 见 16.4 节 )， 而 SO DONTROUTE 插 口 选 项 使 I[P_ROUTETOIF 有 效 ， 并 在 某 个 特定 插 
口上 进行 任意 的 写 操作 ( 见 8.8 布 )。 该 标志 被 传输 协议 传 给 ijp_ output, 

IP ALLOWBROADCAST 标 志 可 以 被 SO_BROADCAST 插 口 选项 ( 见 8.8 证 ) 设 置 ， 但 只 被 UDP 
提交 。 原 来 的 IP 默 认 地 设置 ITP ALLOWBROADCAST。TCP 不 支持 广播 ， 所 以 IP_ 
ALLOWBROADCAST 不 能 被 TCP 提 交 给 ip _output。 不 存在 广播 的 预 请 求 标志 。 

1. 构造 IP 首 部 
60-73 如 果 调 用 程序 提供 任何 卫 选 项 , 它们 将 被 p_insertoptions( 见 9.8 市 ) 与 分 组 合并 ， 
并 返回 新 的 首部 长 度 。 

我 们 将 在 8.8 节 中 看 到 ， 进 程 可 以 设置 1P OPTIONS 插 口 选 项 来 为 一 个 插口 指定 IP 选 项 。 
插口 的 运输 层 (TCP 或 UDP) 总 是 把 这 些 选 项 提交 给 ip_output。 

被 转发 分 组 (IP_FORWARDING) 或 有 预 构 首 部 (IP_RAWOUTPUT) 分 组 的 IP 首 部 不 能 被 ip_ 
output 修 改 。 任 何其 他 分 组 (例如 ， 产 生 于 这 个 主机 的 UDP 或 TCP 分 组 ) 需 要 有 几 个 IP 首 部 字 
段 被 初始 化 。ip_output 把 ip_v 设 置 成 4IPVERSION)， 把 DEF 位 需要 的 ip_off 清 雾 ， 并 设 
置 成 调用 程序 提供 的 值 ( 见 第 10 章 )， 给 来 自 全 局 整数 的 ip- >ip_id 赋 一 个 唯一 的 标识 符 ， 把 
ip_id 加 1。ip_id 是 在 协议 初始 化 时 由 系统 时 钟 设置 的 ( 见 7.8 市 )。ip_h1l 被 设置 成 用 32 位 字 
度量 的 首部 长 度 。 

IP 首 部 的 其 他 字段 (长 度 、 偏 黎 、TTL、 协 议 、TOS 和 目的 地 址 ) 已 经 被 传输 协议 初始 化 了 。 
源 地 址 可 能 没 被 设置 ， 因 为 是 在 确定 了 到 目的 地 的 路 由 后 选择 的 (图 8-25)。 

2. 分 组 已 经 包括 首部 
74-76 对 一 个 已 转发 的 分 组 (或 一 个 有 首部 的 原始 IP 分 组 )， 首 部 长 度 ( 以 字 市 数 度 量 ) 被 保存 
在 hlen 中 ， 留 给 将 来 分 片 算 法 使 用 。 


8.6.2 路 由 选择 


在 完成 IP 首 部 后 ，ip_output 的 下 一 个 任务 就 是 确定 一 条 到 目的 地 的 路 由 。 如 图 8-24 
所 示 。 


— T — ip output.c 
78 * Route packet. 

79 £y 

80 lf iro == p} { 

81 ro = &iproute; 

82 bzero((caddr. t) ro, sizeof(*ro)); 

83 ) 

84 dst = (struct sockaddr in *) &ro-»ro dst; 

85 px 

86 * If there is a cached route, 

87 * check that it is to the same destination 

88 * and is still up. If not, free it and try again. 

89 */ 

90 if (ro-»ro.rt && ((ro-»ro rt-»rt flags & RTF UP) == © |I 

91 dst-»sin addr.s addr !- ip-»ip dst.s addr)) ( 
92 RTFREE (ro-»ro rt); 

93 Yo-»roO rt = (struct rtentry *9) 0j 

94 ) 


图 8-24 ip output (£X) 


$B6* IP: His X 183 


95 il (Xo-»r£6.rb =s 0) { 

96 dst-»sin, family = AF, INET; 

97 dst->sin_len = sizeof(*dst); 

98 dst-»sin addr = ip-»ip dst; 

99 ) 

100 | 

101 * If routing to interface only, 

102 * short circuit routing lookup. 

103 "y 

104 #define ifatoia(ifa) ((struct in ifaddr *)(ifa)) 
105 $define sintosa(sin) ( (struct sockaddr *) (sin)) 
106 if (flags & IP, ROUTETOIF) { 

107 if ((ia = ifatoia(ifa ifwithdstaddr(sintosa(dst)))) == 0 && 
108 (ia = ifatoia(ifa ifwithnet(sintosa(dst)))) == 0) ( 
109 ipstat.ips, noroute--; 

110 error - ENETUNREACH; 

111 goto bad; 

112 ) 

113 ifp = ia-»ia.ifp: 

114 ip-»ip ttl s 1; 

115 ) else ( 

116 Jf (ro-»ro.rt ss 0) 

Li rtalloc (ro); 

118 lif (ro-»ro rt sa D) f 

119 ipstat.ips noroute-s-*; 

120 error - EHOSTUNREACH; 

2121 goto bad; 

122 ) 

123 ia = ifatoia(ro-»ro rt-»rt ifa); 

124 ifp = ro-»sro rt-»rt ifp; 

125 ro-»ro rt-»rt use-*; 

126 if (ro-»ro rt-»rt flags & RTF GATEWAY) 

127 dst - (struct sockaddr in *) ro-»ro rt-»rt gateway; 
128 ) 





ip outpu.c 
图 8-24 ( 续 ) 


1. 验证 高 速 缓存 中 的 路 由 
77-99 ip_output 可 能 把 一 条 在 高 速 缓存 中 的 路 由 作为 ro 参数 来 提供 。 在 第 24 章 中 ， 我 们 
将 看 到 UDP 和 TCP 维 护 一 个 与 各 插口 相关 的 路 由 缓存 。 如 果 没 有 路 由 ， 则 ip_output 把 ro 设 
置 成 指向 临时 route 结 构 ijproute。 

如 果 高 速 缓存 中 的 目的 地 不 是 去 当前 分 组 的 目的 地 ， 就 把 该 路 由 丢掉 ， 新 的 目的 地 址 放 
在 dst 中 。 

2. 旁 路 路 由 选择 
100-114 调用 方 可 通过 设置 IP ROUTETOIF 标志 ( 见 8.8 节 ) 禁 止 对 分 组 进行 路 由 选择 。 
ip_output 必 须 找到 一 个 与 分 组 中 指定 目的 地 网 络 直接 相连 的 接口 。ifa_ifwithdstaddr 
搜索 点 到 点 接口 ， 而 in_ifwithnet 搜 索 其 他 接口 。 如 果 任 一 国 数 找到 与 目的 网 络 相 连 的 接 
口 ， 就 返回 ENETUNREACH; 否则 ，ifp 指 向 选 定 的 接口 。 


这 个 选项 允许 路 由 选择 协议 绕 过 本 地 路 由 表 ， 并 使 分 组 通过 某 特定 接口 退出 系 
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统 。 通 过 这 个 方法 ， 即 使 本 地 路 由 表 不 正确 ， 也 可 以 与 其 他 路 由 器 交换 路 由 选择 


3. 本 地 路 由 


115-122 如 果 分 组 正 被 路 由 选择 (IP_ROUTETOIE 为 关 状 态 )， 并 且 没 有 其 他 缓存 的 路 由 ， 
则 ztal1loc 找 到 一 条 到 ast 指 定 地 址 的 路 由 。 如 果 ztalloc 没 找到 路 由 ， 则 ip_output 返 
回 EHOSTUNREACH。 如 果 ijp forward 调 用 ip _ output， 就 把 EHOSTUNREACH 转 换 成 


ICMP 差 错 。 如 果 某 个 传输 协议 调用 ip_output， 就 把 差错 传 回 给 进程 (图 8-21)。 


123-128 ia 被 设 成 指向 选 定 接口 的 地 址 (ifaddr 结 构 )， 而 ifp 指 同 接口 的 fnet 结 构 。 如 
果 下 一 跳 不 是 分 组 的 最 终 目 的 地 ， 则 把 ast 改 成 下 一 跳 路 由 器 地 址 ， 而 不 再 是 分 组 的 最 终 目 
的 地 址 。IP 首 部 内 的 目的 地 址 不 变 ， 但 接口 层 必须 把 分 组 提交 给 dst， 即 下 一 跳 路 由 器 。 


8.6.3 源 地 址 选择 和 分 片 


ip_output 的 最 后 一 部 分 如 图 8-25 所 示 ， 保 证 卫 首 部 有 一 个 有 效 源 地 址 ， 然 后 把 分 组 提 


交 给 与 路 由 相关 的 接口 。 如 果 分 组 比 接口 的 MTU 大 ， 就 必须 对 分 组 分 片 ， 然 后 一 片 一 片 地 发 
送 。 像 前 面 的 重 装 代码 一 样 ， 我 们 省 略 了 分 片 代码 ， 并 推迟 到 第 10 章 再 讨论 。 
ip_output.c 

212 "x 

213 * If source address not specified yet, use address 

214 * of outgoing interface. 

215 *J 

216 if (ip-»ip src.s addr == INADDR ANY) 

21 7 ip-»ip src = IA SIN(ia)-»sin addr; 

218 P 

219 * Look for broadcast address and 

220 * verify user is allowed to send 

221 * such a packet. 

222 ty 

2243 if (in broadcast(dst-»sin addr, ifp)) ( 

224 if ((ifp-»if flags & IFF BROADCAST) -- 0) ( /* interface check */ 

225 error - EADDRNOTAVAIL; | 

226 goto bad; 

221 ) 

228 if ((flags & IP ALLOWBROADCAST) -- 0) ( /* application check */ 

229 error - EACCES; 

230 goto bad; 

231 ) 

232 /* don't allow broadcast messages to be fragmented */ 

233 if ((u short) ip-»ip len » ifp-»if mtu) ( 

234 error - EMSGSIZE; 

235 goto bad; 

236 ) 

231 m-»m flags |- M BCAST; 

238 ) else 

239 m-»m flags &- ^M BCAST; 


240 sendit: 


241 p" 

242 * If small enough for interface, can just send directly. 
243 */ 

244 if ((u short) ip-»ip len <= ifp-»if mtu) ( 


图 8-25 ip output (£X) 
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245 ip-»ip len = htons((u short) ip-»ip len); 

246 ip-»ip.off = htons((u.short) ip-»ip off); 

247 ip-»ip.sum = 0; 

248 ip-»ip sum = in cksum(m, hlen); 

249 error - (*ifp-»if output) (ifp, m, 

250 (struct sockaddr *) dst, ro-»ro rt); 
251 goto done; 

252 ) 





Z "wife A 

Vu E TAA RR ta 
339 done: 
. 


340 if (ro == &iproute && (flags & IP_ROUTETOIF) == 0 && ro->ro_rt) 
341 RTFREE(ro-»ro rt); 
342 return (error); 
343 bad: 
344 m freem(í(m0); 
345 goto done; 
346 } i 
ip output.c 
图 8-25 (£&) 
1. 选择 源 地 址 


212-239 如 果 没 有 指定 ip_src， 则 ip_output 选 择 输出 接口 的 卫 地 址 ia 作为 源 地 址 。 这 
不 能 在 早期 填充 其 他 IP 首 部 字段 时 做 ， 因 为 那 时 还 设 有 选 定 路 由 。 转 发 的 分 组 通常 都 有 一 个 
源 地 址 ， 但 是 ， 如 果 发 送 进程 没有 明确 指定 源 地 址 ， 产 生 于 本 地 主机 的 分 组 可 能 没有 源 地 址 。 
如 果 目 的 IP 地 址 是 一 个 广播 地 址 ， 则 接口 必须 支持 广播 (IFF_BROADCAST， 图 3-7),， 调 
用 方 必须 明确 使 能 广播 (IP_ALLOWBROADCAST， 图 8-23)， 而 分 组 必须 足够 小 ， 无 须 分 片 。 


最 后 的 测试 是 一 个 策略 决定 。IP 协 议 规 范 中 没有 明确 禁止 对 广播 分 组 的 分 片 ， 但 
， 要 求 分 组 适合 接口 的 MTU。 这 就 增加 了 广播 分 组 被 每 个 接口 接收 的 机 会 ， 因 为 
Re De Ra 


如 果 这 些 条 件 都 不 满足 ， 就 扔 掉 该 分 组 ， 把 ERADDRNOTRVRAIL 、ERACCES 和 EMSGSIZE 返 
回 给 调用 方 。 否 则 ， 设 置 输出 分 组 的 M BCAST， 告 诉 接 口 输出 函数 把 该 分 组 作为 链 路 级 广播 
发 送 。21.20 证 中， 我们 将 看 到 arpresolve 把 IP 广 播 地 址 翻译 成 以 太 网 广播 地 址 。 

如 果 目 的 地 址 不 是 广播 地 址 ， 则 ip_output 把 M_BCAST 清 零 。 


如 果 M BCAST 没 有 清 替 ， ei poy 分 组 的 应 答 将 可 能 作为 
一 个 广播 被 返回 。 我 们 将 在 第 11 章 中 看 到 ， ICMP 应 答 将 以 这 种 方式 作为 TCP RST 
分 组 ( 见 26.9 节 ) 在 请 求 MAE 
2. 发 送 分 组 


240-252 如果 分 组 对 所 选择 的 接口 足够 小 ，ip_len 和 ip_off 被 转换 成 网 络 字 市 序 ，IP 检 
验 和 与 in_cksum( 见 8.7 节 ) 一 起 计算 ， 把 分 组 提交 给 所 选 接口 的 if_output 国 数 。 


3. 分 片 分 组 
253-338 大 分 组 在 被 发 送 之 前 必须 分 片 。 这 里 我 们 省 略 这 段 代 码 ， 推 迟到 第 10 章 讨论 。 
4. 清 零 


339-346 对 每 一 路 由 表 项 都 有 一 个 引用 计数 。 我 们 提 到 过 ， 如 果 参 数 ro 为 空 
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output 可 能 会 使 用 一 个 临时 的 route 结 构 (ijproute)。 如 果 需 要 ，RTFREE 发 布 proute 内 
的 路 由 表 项 ， 并 把 引用 计数 减 1。Bad 处 的 代码 在 返回 前 扔 掉 当 前 分 组 。 
引用 计数 是 一 个 存储 器 管理 技术 。 程 序 员 必须 对 一 个 数据 结构 的 外 部 引用 计 
数 ; 当 计 数 返回 为 0 时 ， 就 可 以 安全 地 把 存储 器 返回 给 空 存 储 器 池 。 引 用 计数 要 求 程 
序 员 遵守 一 些 规定 ， 在 恰当 的 时 机 增加 或 减 小 引用 计数 。 


8.7 _ Internet 检 验 和 : in cksum ži 


有 两 个 操作 占据 了 处 理 分 组 的 主要 时 间 : 复制 数据 和 计算 检验 和 ([Kay 和 Pasquale 1993]), 
mbuf 数 据 结构 的 灵活 性 是 Net/3 中 减少 复制 操作 的 主要 方法 。 由 于 对 硬件 的 依赖 ， 所 以 检验 和 
的 有 效 计算 相对 较 难 。Net3 中 有 几 种 in_cksum 的 实现 (图 8-26)。 


sys/netinet/in cksum.c 
net3/sparc/sparc/in cksum.c 
net3/luna68k/luna68k/in cksum.c 


sys/vax/vax/in cksum.c 
sys/tahoe/tahoe/in cksum.c 
sys/hp300/hp300/in cksum.c 
Sys/i1386/1386/in cksum.c 





图 8-26 在 Net/3 中 的 几 个 in_cksum 版 本 


即使 是 可 移植 C 实 现 也 已 经 被 相当 好 地 优化 了 。 了 REFC 1071 [Braden、Borman 和 Partridge 
1988] 和 RFC 1141 [Mallory 和 Kullberg 1990] 讨 论 了 Internet 检 验 和 国 数 的 设计 和 实现 。RFC 
1141 被 RFC 1624 [Rijsinghani 1994] 修正 。 根 据 RFC 1071; 

1) 把 被 检验 的 相 邻 字 节 成 对 配 成 16 位 整数 ， 就 形成 了 这 些 整数 的 二 进 制 反 码 的 和 。 

2) 为 生成 检验 和 ， 把 检验 和 字段 本 身 清 零 ， 把 16 位 的 二 进 制 反 码 的 和 以 及 这 个 和 的 二 进 
制 反 码 放 到 检验 和 字段 。 

3) 为 检验 检验 和 ， 对 同一 组 字 市 计算 它们 的 二 进 制 反 码 的 和 。 如 果 结 果 为 全 1( 在 二 进 制 
反 码 运算 中 为 -0， 见 下 面 的 解释 )， 则 检验 成 功 。 | 

简 而 言 之 ， 当 对 用 二 进 制 反 码 表示 的 整数 进行 加 法 运算 时 ， 把 两 个 整数 相 加 后 再 加 上 进 
位 就 得 到 加 法 的 结果 。 在 二 进 制 反 码 运算 中 ， 只 要 把 每 一 位 求 补 就 得 到 一 个 数 的 反 。 所 以 在 
二 进 制 反 码 运算 中 ，0 有 两 种 表示 方法 : 全 0 和 全 1。 有 关 二 进 制 反 码 的 运算 和 表示 的 详细 讨论 
见 [Mano 1982], 

检验 和 算法 在 发 送 分 组 之 前 计算 出 要 放 在 IP 首 部 检验 和 字段 的 值 。 为 了 计算 这 个 值 ， 先 
把 首部 的 检验 和 字段 设 为 0， 然 后 计算 整个 首部 (包括 选项 ) 的 二 进 制 反 码 的 和 。 把 首部 作为 一 
个 16 位 整数 数组 来 处 理 。 让 我 们 把 这 个 计算 结果 称 为 g。 因 为 检验 和 字段 被 明确 设 为 0， 所 以 a 
是 除了 检验 和 字段 外 所 有 IP 首 部 字段 的 和 。a 的 二 进 制 反 码 用 一 a 表示 ， 放 在 检验 和 字段 中 ， 发 

如 果 在 传输 过 程 中 没有 位 改变 , 则 在 目的 地 计算 的 检验 和 应 该 等 于 (a+ 一 a) 的 二 进 制 反 码 。 
在 二 进 制 反 码 运算 中 (a+ 一 a) 的 和 是 一 0( 全 1)， 而 它 的 二 进 制 反 码 应 该 等 于 0( 全 0)。 所 以 在 目 
的 地 ， 一 个 没有 损坏 分 组 计算 出 来 的 检验 和 应 该 总 是 为 0。 这 就 是 我 们 在 图 8-12 中 看 到 的 。 
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图 8-27 所 示 的 C 代 码 ( 不 是 Net/3 的 内 容 ) 是 这 个 算法 的 一 种 原始 实现 : 


1 unsigned short 
2 cksum(struct ip *ip, int len) 


3 4 
4 long sum - 0; /* assume 32 bit long, 16 bit short */ 
5 while (len » 1) ( 
6 sum += *((unsigned short *) ip)++; 
7 if (sum & 0x80000000) /* if high-order bit set, fold */ 
8 sum = (sum & OxFFFF) + (sum »» 16); 
9 len -= 2; 
10 ) 
EL if (len) /* take care of left over byte */ 
12 sum += (unsigned short) *(unsigned char *) ip; 
13 while (sum >> 16) 
14 sum = (sum & OxFFFF) + (sum >> 16); 
15 return “sum; 
i5 ] 


图 8-27 IP 检 验 和 计算 的 一 种 原始 实现 


1-16 ”这 里 唯一 提高 性 能 之 处 在 于 累计 sum 高 16 位 的 进位 。 当 循环 结束 时 ， 累 计 的 进位 被 加 
在 低 16 位 上 ， 直 到 没有 其 他 进位 发 生 。RFC 1071 称 此 为 延迟 进位 (deferred carries)。 在 没有 有 
进位 加 法 指令 或 检测 进位 代价 很 大 的 机 器 上 ， 这 个 技术 非常 有 效 。 

图 8-28 显 示 Net/3 的 可 移植 C 版 本 。 它 使 用 了 延迟 进位 技术 ， 作 用 于 存储 在 一 个 mbuf 链 中 
的 分 组 。 
42-140 我 们 的 新 检验 和 实现 假定 所 有 被 检验 字 节 都 存储 在 一 个 连续 缓存 而 不 是 mbuf 中 。 这 
个 版 本 的 检验 和 计算 采用 相同 的 底层 算法 来 正确 地 处 理 mbuf: 用 32 位 整数 的 延迟 进位 对 16 位 
字 做 加 法 。 对 奇数 个 字 节 的 mbuf， 多 出 来 的 一 个 字 节 被 保存 起 来 ， 并 与 下 一 个 mbuf 的 第 一 个 
字 节 配对 。 因 为 在 大 多 数 体 系 结构 中 ， 对 16 位 字 的 不 对 齐 访问 是 无 效 的 ， 甚 至 会 产生 严重 差 
错 ， 所 以 不 对 齐 字 节 将 被 保存 ，in_cksum 继 续 加 上 下 一 个 对 齐 的 字 。 当 这 种 情况 发 生 时 ， 
in cksum 总 是 很 小 心地 交换 字 节 , 保证 位 于 奇数 和 偶数 位 置 的 字 市 被 放 在 单独 的 和 字 市 中 ， 
以 满足 检验 和 算法 的 要 求 。 

循环 展开 
93-115 函数 中 的 三 个 while 循 环 在 每 次 迭代 中 分 别 在 和 中 加 上 16 个 字 、4 个 字 和 1 个 字 。 展 
开 的 循环 减 小 了 循环 的 耗费 ， 在 某 些 体系 结构 中 可 能 比 一 个 直接 循环 要 快 得 多 。 但 代价 是 代 
码 长 度 和 复杂 性 增 大 。 


in cksum.c 
42 *define ADDCARRY (x) (x > 65535 7 x -= 65535 : x) 


43 4define REDUCE (l util.l = sum; sum = 1 util.s[0] + 1 util.s[1]; ADDCARRY(sum);) 


44 int 
45 in cksum(m, len) 
46 struct mbuf *m; 


47 int len; 

48 ( 

49 u.short *w; 

50 int sum - 0; 


图 8-28 卫 检 验 和 计算 的 一 个 优化 的 可 移植 C 程 序 
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51 int mlen = 0; 

52 int byte swapped - 0; 

53 union ( 

54 char c[2]; 

55 u short s; 

56 ) & util; 

57 union ( 

58 u short s[2]; 

59 long lj 

60 ] L uEkIl: 

61 for (; m && len; m = m-»m next) { 

62 if (m-»m len == 0) 

63 continue; 

64 w - mtod(m, u short *); 

65 if (mlen -- -1) ( 

66 rT 

67 * The first byte of this mbuf is the continuation of a 
68 * word spanning between this mbuf and the last mbuf. 
69 * 

70 * s util.c[0] is already saved when scanning previous mbuf. 
73. SF 

72 s util.c[1] = *(char *) w; 

73 sum += S util.s; 

74 w - (u short *) ((char *) w * 1); 

75 mlen - m-»m len - 1; 

76 len--; 

T4 ) else 

78 mlen - m-»m len; 

79 if (len « mlen) 

80 mlen - len; 

81 len -- mlen; 

82 P" 

83 * Force to even boundary. 

84 s i 

85 if ((1 & (int) w) && (mlen > 0)) ( 

86 REDUCE; 

87 sum ««- 8; 

88 s util.c[0] = *(u., char *) w; 

89 w= (WU short *) ((char *) w + 1); 

90 mlen--; 

91 byte swapped - 1; 

92 ) 

93 de 

94 * Unroll the loop to make overhead from 

95 * branches &c small. 

96 a i 

97 while ((mlen -= 32) >= 0) ( 

98 sum += w[0]; sum += w[1]; sum += w[2]; sum += w[3]; 
99 sum += w[4]; sum += w[5]; sum += w[6]; sum += w[7]; 
100 sum += w[8]; sum += w[9]; sum += w[10]; sum += w[11]; 
101 sum += w[12]; sum += w[13]; sum += w[14]; sum += w[15]; 
102 w += 16; 

103 } 
104 mlen += 32; 
105 while ((mlen -= 8) >= 0) { : 

106 sum += w[0]; sum += w[1]; sum += w[2]; sum += w[3]; 
107 w += 4; 


图 8-28 (££) 
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108 ) 
109 mlen += 8; 
110 if (mlen == 0 && byte swapped == 0) 
LII continue; 
112 REDUCE; 
113 while ((mlen -= 2) >= O) ( 
114 sum += *w-**; 
115 ) 
116 if (byte swapped) ( 
117 REDUCE; 
118 sum ««- 8; 
119 byte swapped - 0; 
120 if (mlen == -1) ( 
121 s util.c[1]  *(char *) w; 
122 sum += s_util.s; 
123 mlen = 0; 
124 ) else 
125 i mlen = -1; 
126 } else if (mlen == -1) 
127 5- utIl-cCrO0l = *(char *) wi 
128 } 
129 if (len) 
130 printf("cksum: out of dataMn"); 
131 if (mlen -- -1) ( 
132 /* The last mbuf has odd # of bytes. Follow the standard (the odd 
133 byte may be shifted left by 8 bits or not as determined by 
134 endian-ness of the machine) */ 
135 s util.c[l1] = 0; 
136 sum += S util.s; 
137 ) 
138 REDUCE; 
139 return (^sum & Oxffff); 
140 ) 
in cksum.c 
图 8-28 (£3) 
其 他 优化 


RFC 1071 提 到 两 个 在 NeV3 中 没有 出 现 的 优化 : 联合 的 有 检验 和 的 复制 操作 与 递增 的 检验 
和 更 新 。 对 IP 首 部 检验 和 来 说 ， 把 复制 和 检验 和 操作 结合 起 来 并 不 像 对 TCP 和 和 UDP 那么 重要 ， 
因为 后 者 覆盖 了 更 多 的 字 节 。 在 23.12 节 中 对 这 个 合并 的 操作 进行 了 讨论 。 [Partridge 和 Pink 
1993] 报 告 了 IP 首 部 检验 和 的 一 个 内 联 版 本 比 调用 更 一 般 的 in_cksum 畏 数 要 快 得 多 ， 只 需 
6~8 个 汇编 指令 就 可 以 完成 (标准 的 20 字 市 IP 首 部 )。 

检验 和 算法 设计 允许 改变 分 组 ， 并 在 不 重新 检查 所 有 字 市 的 情况 下 更 新 检验 和 。RFC 
1071 对 该 问题 进行 了 简明 的 讨论 。RFC 1141 和 1624 中 有 更 详细 的 讨论 。 该 技术 的 一 个 典型 应 
用 是 在 分 组 转发 的 过 程 中 。 通 常情 况 下 ， 当 分 组 没有 选项 时 ， 转 发 过 程 中 只 有 TTL 字 有 段 发 生 
变化 。 在 这 种 情况 下 ， 可 以 只 用 一 次 循环 进位 ， 重 新 计算 检验 和 。 

为 了 进一步 提高 效率 ， 递 增 的 检验 和 也 有 助 于 检测 到 被 有 差错 的 软件 破坏 的 首部 。 如 果 
递增 地 计算 检验 和 ， 则 下 一 个 系统 可 以 检测 到 被 破坏 的 首部 。 但 是 如 果 不 是 递增 计算 检验 和 ， 
那么 检验 和 中 就 包含 了 差错 的 字 节 ， 检 测 不 到 有 问题 的 首部 。UDP 和 TCP 使 用 的 检验 和 算法 
在 最 终 目的 主机 中 检测 到 该 差错 。 我 们 将 在 第 23 和 25 章 看 到 UDP 和 TCP 检 验 和 包含 了 IP 首 部 
的 几 个 部 分 。 
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使 用 硬件 有 进位 加 法 指令 一 次 性 计算 32 位 检验 和 的 检验 和 国 数 ， 可 参见 ./sys/vax/ 
vax/in cksum.c 文 件 中 VAX 实 现 的 in_cksum。 


8.8 setsockopt 和 getsockopt 系 统 调用 


Net/3 提 供 setsockopt 和 getsockopt 两 个 系统 调用 来 访问 一 些 网 络 互 连 的 性 质 。 这 两 个 系统 
调用 支持 一 个 动态 接口 ， 进 程 可 用 该 动态 接口 来 访问 某 种 网 络 互 连 协议 的 一 些 性 质 ， 而 标准 
系统 调用 通常 不 支持 该 协议 。 这 两 个 调用 的 原型 是 

int setsockopt(int s, int level, int optname, void *optval, int optlen) ; 


int getsockopt(int s, int level, int optname, const void *optval, int optlen) ; 


大 多 数 插口 选项 只 影响 它们 在 其 上 发 布 的 插口 。 与 sysct1 参 数 相 比 ， 后 者 影响 整个 系统 。 
与 多 播 相关 的 插口 选项 是 一 个 明显 的 例外 ， 将 在 第 12 章 中 讨论 。 

setsockopt 和 getsockopt 分 别 设置 和 获取 通信 栈 所 有 层 上 的 选项 。Net/3 按 照 与 :相关 
的 协议 和 由 level 指 定 的 标识 符 处 理 选项 。 图 8-29 列 出 了 在 我 们 讨论 的 协议 中 level 可 能 取得 的 值 。 

在 第 17 章 中 ， 我 们 描述 了 setsockopt 和 getsockopt 的 实现 ,但 在 其 他 适当 章 市 中 讨 
论 有 关 选 项 的 实现 。 本 章 讨论 访问 IP 性 质 的 选项 。 






IPPROTO_TCP tcp ctloutput 30.645 
IPPROTO_IP ip_ctloutput 图 8-31 


原始 IP rip_ctloutput 和 
ICMP IPPROTO IP ip ctloutput 32.845 
IGMP 


图 8-29 sosetoptjflsogetopt2 4X 


我 们 把 本 书 中 出 现 的 所 有 插口 选项 总 结 在 图 8-30 中 ,该 图 显示 了 IPPROTO_IP 级 的 选项 。 
选项 出 现在 第 1 列 ，optval 指 向 变量 的 数据 类 型 出 现在 第 2 列 ， 第 3 列 显 示 的 是 处 理 该 选项 的 
ER 


Laxs [wm «* ww 


IP OPTIONS | in pebopte — | 设置 或 获取 发 出 的 数据 报 中 的 IP 选 项 。 
IP TOS j ip_ctloutput 设置 或 获取 发 出 的 数据 报 中 的 IP TOS 
IP TTL | ip ctloutput 设置 或 获取 发 出 的 数据 报 中 的 IP TTL 














TP RECVDSTADDR | i ip ctloutput 使 能 或 禁止 了 了 目的 地 址 (只 有 UDP) 的 排队 


IP RECVOPTS ip ctloutput 使 能 或 禁止 对 到 达 IP 选 项 作为 控制 信息 的 
排队 (只 对 UDP; 还 没有 实现 ) 

IP RECVRETOPTS | i ip ctloutput 使 能 或 禁止 与 到 达 数 据 报 相 关 的 逆 源 路 由 
(只 对 UDP， 还 没有 实现 ) 





图 8-30 插口 选项 SOCK RAW, SOCK DGRAM 和 SOCK _STREAMR 插 口 的 ITPPROTO _IP 级 


图 8-31 显 示 了 用 于 处 理 大 部 分 IPPROTO _ IP 选项 的 jp_ctloutput 函 数 的 整个 结构 。 在 
32.8 节 中 我 们 给 出 与 SOCK _ RAW 插口 一 起 使 用 的 IPPROTO IPZEJW, 
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ip output.c 


ip output.c 


431 int 
432 ip ctloutput(op, so, level, optname, mp) 
433 int Op; 
434 struct socket *so; 
435 int level, optname; 
436 struct mbuf **mp; 
437 ( 
438 struct inpcb *inp = sotoinpcb(so); 
439 struct mouf *m s *mp; 
440 int optval; 
441 int error = 0; 
442 if (level !- IPPROTO IP) { 
443 error - EINVAL; 
444 if (op -- PRCO SETOPT && *mp) 
445 (void) m free(*mp); 
446 ) else 
447 switch (op) ( 
448 case PRCO SETOPT: 
449 switch (optname) ( 
/* PRCO SETOPT processing (Figures 8.32 and 12.17) */ 
493 freeit: 
494 default: 
495 error - EINVAL; 
496 break; 
497 ) 
498 if (m) 
499 (void) m free(m); 
500 break; 
501 case PRCO, GETOPT: 
502 switch (optname) ( 
/* PRCO SETOPT processing (Figures 8.33 and 12.17) */ 
546 default: 
547 error - ENOPROTOOPT; 
548 break; 
549 ) 
550 break; 
551 ) 
2052 return (error); 
553 ) 
图 8-31 ip ctloutput Kt: 概貌 
431-447 ip ctloutput 的 第 一 个 参数 op， 可 以 是 PRCO SETOPT 或 者 PRCO GETOPT。 第 二 


个 参数 so， 指 问 疝 其 发 布 请 求 的 插口 。level 必 须 是 IPPROTO_IP。optname 是 要 改变 或 要 检 
索 的 选项 ，mp 间 接地 指向 一 个 含有 与 该 选项 相关 数据 的 mbuf，m 被 初始 化 为 指 同 由 *mp 引 用 
的 mbuf 。 
448-500 如 果 在 调用 setsockopt 时 指定 了 一 个 无 法 识别 的 选项 (因此 ， 在 switch 中 调用 
PRCO SETOPT 语 句 )，ip_ctloutput 释 放 掉 所 有 调用 方 传 来 的 缓存 ， 并 返回 EINVAL。 
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501-553 getsockopt 传 来 的 无 法 识别 的 选项 导致 jp ctloutputjR[|IENOPROTOOPT, 在 
这 种 情况 下 ， 调 用 方 释放 mbuf。 


8.8.1 


PRCO SETOPT 的 处 理 


对 PRCO_SETOPT 的 处 理 如 图 8-32 所 示 。 
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451 
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481 
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483 
484 


ip_output.c 
case IP_OPTIONS: 
return (ip_pcbopts (&inp->inp_options, m)); 
case IP TOS: 
case IP TTL: 
case IP RECVOPTS: 
case IP RECVRETOPTS: 
case IP RECVDSTADDR: 
if (m-»m len != sizeof(int)) 
error - EINVAL; 
else ( 
optval - *mtod(m, int *); 
switch (optname) ( 
case IP TOS: 
inp-»inp ip.ip tos = optval; 
break; 
case IP TTL: 
inp-»inp ip.ip ttl = optval; 
break; 
#define OPTSET(bit) \ 
if (optval) \ 
inp-»inp flags f= bit; \ 
else \ 
inp-»inp flags &= “bit; 
case IP RECVOPTS: 
OPTSET(INP RECVOPTS); 
break; 
case IP RECVRETOPTS: 
OPTSET(INP RECVRETOPTS); 
break; 
case IP RECVDSTADDR: 
OPTSET (INP_ RECVDSTADDR) ; 
break; 
) 
) 
break; : 
ip output.c 


图 8-32 ip_ctloutput 畏 数 : 处 理 PRCO SETOPT 


450-451 IP OPTIONS 是 由 ip pcbopts 处 理 的 (图 9-32)。 


452-484 


IP TOS, IP TTL, IP RECVOPTS, IP RECVERTOPTSAEIP RECVDSTADDR 


选项 都 需要 在 由 m 指 向 的 mbuf 中 有 一 个 整数 。 该 整数 存储 在 optval 中 ， 用 来 改变 与 插口 有 关 
的 ip_tos 和 :ip_ttl 的 值 ， 或 者 用 来 设置 或 复位 与 揪 口 相关 的 INP_RECVOPTS 、 
INP RECVERTOPTS 和 INP RECVDSTADDR 标 志 位 。 如 果 optval 是 非 零 (或 0)， Wil 
OPTSET 设 置 (或 复位 ) 指 定 的 比特 。 


图 8-30 中 显示 没有 实现 TIP、 RECVOPTS 和 IP RECVERTOPTS。 在 第 23 章 中 ， 我 
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们 将 看 到 UDP 忽略 了 这 些 选项 的 设置 。 
8.8.2 PRCO GETOPT 的 处 理 


图 8-33 显 示 的 一 段 代码 完成 了 当 指 定 PRCO_GETOPT 有 时 对 IP 选 项 的 检索 。 


ip_output.c 

503 case IP OPTIONS: 

504 *mp = m = m get(M WAIT, MT SOOPTS); 

505 if (inp-»inp options) ( 

506 m-»m len = inp-»inp options-»m len; 

507 bcopy (mtod(inp-»inp options, caddr. t), 

508 mtod(m, caddr t), (unsigned) m-»m len); 

509 ) else 

510 m-»m len - 0; 

511 break; 

512 case IP TOS: 

513 case IP TTL: 

514 case IP RECVOPTS: 

515 case IP.RECVRETOPTS: 

516 case IP RECVDSTADDR: 

517 *mp - m - m get(M WAIT, MT SOOPTS); 

518 m-»m len - sizeof(int); 

519 switch (optname) { 

520 case IP TOS: 

521 optval = inp-»inp ip.ip tos; 

522 break; 

523 case IP TTL: 

524 optval - inp-»inp ip.ip ttl; 

525 break; 

526 #define OPTBIT (bit) (inp->inp_flags & bit ? 1 : 0) 

527 case IP RECVOPTS: 

528 optval = OPTBIT(INP RECVOPTS); 

529 break; 

530 case IP RECVRETOPTS: 

531 optval = OPTBIT(INP. RECVRETOPTS); 

532 break; 

533 case IP RECVDSTADDR: 

534 optval = OPTBIT(INP RECVDSTADDR); 

535 break; 

536 ) 

537 *mtod(m, int *) - optval; 

538 break; 
ip output.c 


图 8-33 ip ctloutput Át: PRCO GETOPT 的 处 理 


503-538 对 IP OPTIONS，ip_ctloutput 返 回 一 个 缓存 ， 该 缓存 中 包含 了 与 该 插口 相关 
的 选项 的 备份 。 对 其 他 选项 ，ip_ctloutput 返 回 ijp_tos 和 ip_tt1 的 值 ， 或 与 该 选项 相关 
的 标志 的 状态 。 返 回 的 值 放 在 由 mm 指向 的 mbuf 中 。 如 果 在 inp_f1lags 中 的 bit 是 打开 (或 关 
闭 ) 的 ， 则 宏 OPTBIT 将 返回 1( 或 0)。 


8.9 ip sysctl% 


图 7-27 显 示 ， 在 调用 sysct1 中 ， 当 协议 和 协议 族 的 标识 符 是 0 时 ， 就 调用 ip_sysct1 国 
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数 。 图 8-34 显 示 了 ip_sysct1 文 持 的 三 个 函数 。 


IPCTL FORWARDING ipforwarding 系统 是 否 转 发 IP 分 组 ? 


IPCTL SENDREDIRECTS ipsendredirects 系统 是 否 发 ICMP 重 定 同 ? 
IPCTL DEFTTL ip defttl IP 分 组 的 默认 TTL 





图 8-34 sysct1 参 数 


图 8-35 显 示 了 ip sysctl 函数 。 





了 和 天 ip input.c 
985 ip sysctl(name, namelen, oldp, oldlenp, newp, newlen) 

986 int *name; 

987 u int namelen; 

988 void *oldp; 

989 size t *oldlenp; 

990 void *newp; 

991 size t newlen; 

992 ( 

993 /* All sysctl names at this level are terminal. */ 

994 if (namelen !- 1) 

295 return (ENOTDIR); 

996 switch (name[0]) ( 

997 case IPCTL FORWARDING: 

998 return (sysctl int(oldp, oldlenp, newp, newlen, &ipforwarding)); 
999 case IPCTL SENDREDIRECTS: 
1000 return (sysctl int(oldp, oldlenp, newp, newlen, 
1001 &ipsendredirects)); 

1002 case IPCTL DEFTTL: 
1003 return (sysctl int(oldp, oldlenp, newp, newlen, &ip defttl)); 
1004 default: 

1005 return (EOPNOTSUPD); 
1006 ) 
1007 /* NOTREACHED */ 

1008 ) SEE 

ip input.c 





8-35 ip sysctlrHZ 


因为 jp_sysct1l 并 不 把 sysct1 请 求 转发 给 其 他 函数 ， 所 以 在 name 中 只 能 有 一 个 成 员 。 
否则 返回 ENOTDIR。 

Switch 语 句 选 择 恰当 的 调用 syst1l_int， 它 访问 或 修改 ijpforwarding、 
ipsendredirects 或 ljp deftt1。 对 无 法 识别 的 选项 返回 BOPNOTSUPP。 


8.10 小 结 


IP 是 一 个 最 佳 的 数据 报 服务 ， 它 为 所 有 其 他 Internet 协 议 提供 交付 机 制 。 标 准 IP 首 部 长 度 
为 20 字 节 ， 但 可 跟 最 多 40 字 节 的 选项 。 卫 可 以 把 大 的 数据 报 分 片 发 送 ， 并 在 目的 地 重 装 分 片 。 
对 选项 处 理 的 讨论 放 在 第 9 章 和 第 10 章 。 

ipintz 保 证 了 了 首部 到 达 时 未 经 破坏 ， 通 过 把 目的 地 址 与 系统 接口 地 址 及 其 他 几 个 广播 地 
址 比较 来 确定 它们 是 否 到 达 最 终 目 的 地 。ipintr 把 到 达 最 终 目的 地 的 数据 报 传 给 分 组 内 指定 
的 运输 层 协 议 。 如 果 系 统 被 配置 成 路 由 器， 就 把 还 没有 到 达 最 终 目 的 地 的 分 组 发 给 
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ip_forward 转 发 到 最 终 目的 地 。 分 组 有 一 个 受 限 的 生命 期 。 如 果 TTL 字 段 变 成 0， 则 
ip forward 就 丢掉 该 分 组 。… 

许多 Internet 协 议 都 使 用 Internet 检 验 和 函数 ，Net/3 用 in cksum 实 现 。IP 检 验 和 只 禾 盖 首 
部 (和 选项 )， 不 覆盖 数据 ， 数 据 必须 由 传输 协议 级 的 检验 和 保护 。 作 为 IP 中 最 耗 时 的 操作 ， 检 
验 和 函数 通常 要 针对 不 同 的 平台 进行 优化 。 


习题 
8.1 
8.2 


8.3 


8.4 
8.5 


8.6 


8.7 
8.8 
8.9 


当 没 有 为 任何 接口 分 配 IP 地 址 时 ，IP 是 否 该 接收 广播 分 组 ? 

修改 ijp_forward 和 ip_output， 当 转发 一 个 没有 选项 的 分 组 时 ， 对 IP 检 验 和 进行 
递增 的 更 新 。 

当 拒绝 转发 分 组 时 ， 为 什么 需要 检测 链 路 级 广播 ( 某 缓存 中 的 M_BCRST 标 志 ) 和 IP 级 
广播 (in_canforward)? 在 何 种 情况 下 ， 把 一 个 具有 IP 单 播 目 的 地 的 分 组 作为 一 个 
链 路 层 广 播 接 收 ? 

当 一 个 IP 分 组 到 达 时 有 检验 和 差错 ， 为 什么 不 同 发 送 方 返回 一 个 差错 信息 ? 

假定 一 个 多 接口 主机 上 的 某 个 进程 为 它 发 出 的 分 组 选择 了 一 个 明确 的 源 地 址 。 而 且 ， 
假定 是 通过 一 个 接口 而 不 是 作为 分 组 源 地 址 所 选择 的 地 址 到 达 的 。 当 第 一 跳 路 由 器 
发 现 分 组 应 该 到 男 一 个 路 由 器 时 ， 会 发 生 什么 情况 ?会 向 主机 发 送 重 定向 报 文 吗 ? 
一 个 新 的 主机 被 连 到 一 个 已 划分 子 网 的 网 络 中 ， 并 被 配置 成 完成 路 由 选择 的 功能 
(ipforwarding F1), 但 它 的 网 络 接口 没有 分 配子 网 掩 码 。 当 该 主机 接收 一 个 子 
网 广播 分 组 时 会 出 现 什么 情况 ? 

图 8-17 中 ， 在 检测 ip_tt1 后 (与 之 前 相 比 )， 为 什么 需要 把 它 减 1? 

如 果 两 个 路 由 右 都 认为 对 方 是 分 组 的 最 佳 下 一 跳 目的 地 ， 将 发 生 什 么 情况 ? 

图 8-14 中 ， 对 一 个 到 达 SLIP 接 口 的 分 组 ， 不 检测 哪些 地 址 ? 有 没有 其 他 在 图 8-14 中 
没有 列 出 的 地 址 被 检测 ? 


8.10 ip_forward 在 调用 icmp error 之 前 ， 把 分 片 的 1d 从 主机 字 节 序 转 换 成 网 络 字 


廊 序 。 为 什么 它 不 对 分 片 的 偏 移 进行 转换 ? 


PIS IP 选 项 处 理 


9.1 引言 


第 8 人 草 中 提 到 ，IP 输 入 函数 (ipintr) 将 在 验证 分 组 格式 (检验 和 ， 长 度 等 ) 之 后 ， 确 定 分 组 
征 否 到 达 目 的 地 之 前 ， 对 选项 进行 处 理 。 这 表明 ， 分 组 所 遇 到 的 每 个 路 由 器 以 及 最 终 的 目的 
主机 都 要 对 分 组 的 选项 进行 处 理 。 

RFC 791 和 1122 指 定 了 IP 选 项 和 处 理 规则 。 本 章 将 讨论 大 多 数 IP 选 项 的 格式 和 处 理 。 我 们 
也 将 显示 运输 协议 如 何 指定 IP 数 据 报 内 的 IP 选 项 。 

IP 分 组 内 可 以 包含 某 些 在 分 组 被 转发 或 被 接收 之 前 处 理 的 可 选 字段 。IP 实 现 可 以 用 任意 
顺序 处 理 选 项 ，Net/3 按 照 选 项 在 分 组 中 出 现 的 顺序 处 理 选项 。 图 9-1 显 示 ， 标 准 IP 首 部 之 后 最 
多 可 跟 40 字 赴 的 选项 。 


.———————— o ip hl x4 字 节 | 
p—— Ror 一 一 一 一 一 一 一 一 
图 9-1 一 个 IP 首 部 可 以 有 0~40 字 节 的 IP 选 项 
9.2 代码 介 绍 


两 个 首部 描述 了 IP 选 项 的 数据 结构 。 选 项 处 理 的 代码 出 现在 两 个 C 文 件 中 。 图 9-2 列 出 了 
相关 的 文件 。 


netinet/ip.h ip timestamp 结 构 


netinet/ip var.h ipoption 结 构 
netinet/ip input.c 选项 处 理 
netinet/ip output.c ip insertoptionsHKA 


图 9-2 本 章 讨论 的 文件 





9.2.1 全 局 变量 
图 9-3 插 述 了 两 个 全 局 变量 支持 源 路 由 的 逆 (reversal)。 





ip nhops | int 以 前 的 源 路 由 跳 计 数 
ip_srcrt | struct ip_srcrt | 以 前 的 源 路 由 


图 9-3 本 章 引 入 的 全 局 变量 
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9.2.2 统计 量 
选项 处 理 代 码 更 新 的 唯一 的 统计 量 是 ipstat 结 构 中 的 ips_badoptions， 如 图 8-4 所 示 。 
9.3 选项 格式 


下 选项 字段 可 能 包含 0 个 或 多 个 单独 选项 。 选 项 有 两 种 类 型 ， 单 字 节 和 多 字 节 ， 如 图 9-4 中 
所 示 。 


OC 
nn emeDe[m 70 9m 
"x EL 位 移 字段 没有 出 现在 每 个 多 
L1. 字 节 选项 中 
l 2 bit 5 bit 


图 9-4 单字 市 和 多 字 市 IP 选 项 的 结构 


所 有 选项 都 以 1 字 节 类 型 (Mype) 字 段 开 始 。 在 多 字 节 选项 中 ， 类 型 字段 后 面 紧 接着 一 个 长 
Ellen) FER, HEIFI ER data), 许多 选项 数据 字段 的 第 一 个 字 市 是 1 字 古 的 位 移 
(offset) 字 段 ， 指 向 数据 字段 内 的 某 个 字 市 。 长 度 字 市 的 计算 覆盖 了 类 型 、 长 度 和 数据 字段 。 
类 型 被 继续 分 成 三 个 子 字段 : 1 bit 备 份 (copied) 标 志 、2 bit 类 (class) 字 段 和 5 bit 数 字 (number) 
字段 。 图 9- a 前 两 个 选项 是 单字 节选 项 ， 其 他 的 是 多 字 节 选项 。 


0-00-00111 


0-10-00100 ih [8] ÆR 
FE 1-00-00010 基本 的 安全 
IPOPT LSRR -0- 1-00-00011 3 宽松 源 路 由 和 记录 路 由 (LSRR) 
1-00-00101 5 扩展 的 安全 
IPOPT SATID -0- 1-00-01000 4 流标 识 符 
IPOPT SSRR -0- 1-00-01001 ^ 严格 源 路 由 和 记录 路 由 (SSRR) 





图 9-5 RFC 791 定 义 的 IP 选 项 

第 1 列 显 示 了 Net3 的 选项 和 常量， 第 2 列 和 第 3 列 是 该 类 型 的 十 进 制 和 二 进 制 值 ， 第 4 列 是 选项 
的 长 度 。Net3 列 显示 的 是 在 NeU3 中 由 ip _ dooptions 实 现 的 选项 。 

IP 必 须 自动 忽略 所 有 它 不 识别 的 选项 。 我 们 不 描述 NeU3 没 有 实现 的 
选项 : 安全 和 流 ID。 流 ID 选 项 是 过 时 的 ， 安 全 选项 主要 只 由 美国 军 à; 
方 使 用 。RFC 791 中 有 更 多 的 讨论 。 

当 Net/3 对 一 个 有 选项 的 分 组 进行 分 片 时 (10.4 市 )， 它 将 检查 
copied 标 志 位 。 该 标志 位 指出 是 否 把 所 有 选项 都 备份 到 每 个 分 片 的 图 9-6 ”IP 选项 内 的 
IP 首 部 。class 字 段 把 相关 的 选项 按 如 图 9-6 所 示 进 行 分 组 。 图 9-5 中 ， class 字 段 
除 时 间 戳 选项 的 class 为 2 外 ， 其 他 所 有 选项 都 是 class 为 0。 
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9.4 ip dooptionsiAZi 


在 图 8-13 中 ， 我 们 看 到 ipintr 在 检测 分 组 的 目的 地 址 之 前 调用 ip_dooptions。 
ip_dooptions 被 传 给 一 个 指针 m， 该 指针 指向 某 个 分 组 ，ip_dooptions 处 理 分 组 中 它 所 
知道 的 选项 。 如 果 ip_dooptions 转 发 该 分 组 ， 如 在 处 理 LSRR 和 SSRR 选 项 上 时， 或 由 于 某 个 
差错 而 丢掉 该 分 组 时 ， 它 返回 1。 如 果 它 不 转发 分 组 ，ip_dooptions 返 回 0， 由 ipintz 继 
续 处 理 该 分 组 。 

ip_dooptions 是 一 个 长 函数 ， 所 以 我 们 分 步 地 显示 。 第 一 部 分 初始 化 一 个 for 人 循环 ， 
处 理 首 部 中 的 各 选项 。 

当 处 理 每 个 选项 时 ，cp 指 向 选项 的 第 一 个 字 节 。 图 9-7 显 示 ， 当 可 用 时 ， 如 何 从 cp 的 前 
EM type, lengthfüoffset^E Bx . 


Cp[IPOPT OLEN] 





Cp[IPOPT OPTVAL] Cp[IPOPT OFFSET] 


RM ien s —— 
| 


cp 
图 9-7 用 常量 位 移 访问 IP 选 项 字段 

RFC 把 位 移 (offset?) 字 自称 为 指针 (pointer)， 指 针 比 位 移 的 描述 性 上 略 强 一 些 。offset 的 值 是 菜 
个 字 节 在 该 选项 内 的 序号 (从 type 开始 ， 序 号 为 1)， 不 是 从 type 开 始 的 、 且 以 零 开 始 的 计数 。 位 
移 的 最 小 值 是 4(IPOPT_MINOEFE), 它 指向 的 是 多 字 节 选项 中 数据 字段 的 第 一 个 字 古 。 

图 9-8 显 示 了 ip_dqooptions 畏 数 的 整体 结构 。 
555-566 ip dooptions 把 ICMP 差 错 类 型 type 初 始 化 为 LCMP_PARAMPROB， 对 任何 没 
有 特定 差错 类 型 的 差错 ， 这 是 一 个 一 般 值 。 对 于 ICMP_PARAMPROB，code 指 的 是 出 错字 市 
在 分 组 内 的 位 移 。 这 是 默认 的 ICMP 差 错 报 文 。 某 些 选 项 将 改变 这 些 值 。 


ip 指向 一 个 20 字 节 大 小 的 ip 结构 ， 所 以 ip+1 指 向 的 是 跟 在 IP 首 部 后 面 的 下 一 个 
ip 结构 。 因 为 ip dooptions 需 要 JIP 首 部 后 面 字 节 的 地 址 ， 所 以 就 把 结果 指针 转换 
成 为 指向 一 个 无 符号 字 节 (u char) 的 指针 。 因 此 ，cp 指 向 标准 IP 首 部 以 外 的 第 一 个 
字 节 ， 就 是 IP 选 项 的 第 一 个 字 节 。 

1. EOL 和 和 NOP 过程 
567-582 for 循环 按照 每 个 选项 在 分 组 中 出 现 的 顺序 分 别 对 它们 进行 处 理 。EOL 选 项 以 及 
一 个 无 效 的 选项 长 度 ( 也 即 选 项 长 度 表明 选项 数据 超过 了 IP 首 部 ) 都 将 终止 该 循环 。 当 出 现 NOP 
选项 上 时， 忽略 它 。switch 语 句 的 default 情 况 隐 舍 要 求 系统 忽略 未 知 的 选项 。 

下 面 的 内 容 描述 了 switch 语 句 处 理 的 每 个 选项 。 如 果 ip_dooptions 在 处 理 分 组 选项 
时 没有 出 错 ， 就 把 控制 交 给 switch 下 面 的 代码 。 

2. 源 路 由 转发 
719-724 ”如果 分 组 需要 被 转发 ，SSRR 或 LSRR 选 项 处 理 代 码 就 把 forward 置 位 。 分 组 被 传 


553 int 
554 ip dooptions (m) 
555 struct mbuf *m; 
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给 ijp_forward， 并 且 第 2 个 参数 为 1!1， 表 明 分 组 是 按 源 路 由 选择 的 。 


ip_input.c 


ICMP PARAMPROB, forward = 0; 


ip: 


/* XXX icmp error adds in hdr length */ 


556 t 

557 struct ip *ip - mtod(m, struct ip *); 

558 u.char *cp; 

559 struct ip timestamp *ipt; 

560 struct in ifaddr *ia; 

561 int opt, optlen, cnt, off, code, type - 
562 struct in addr *sin, dst; 

563 n time ntime; 

564 dst - ip-»ip dst; 

565 CD 2 (u char *) [1p 4321) 

566 cnt  (ip-»ip bl << 2).- sizeof(struct ip); 
567 for (; cnt » 0; cnt -s optlen, cp += optlen) 
568 opt = cp[IPOPT OPTVAL]; 

569 if (opt == IPOPT EOL) 

570 break; 

S71 if (opt -- IPOPT NOP) 

572 optlen = 1; 

914 else ( 

574 optlen - cp[IPOPT OLEN]; 

575 if (optlen <= 0 |] optlen » ént) { 
576 code = &cp[IPOPT OLEN] - (u_char *) 
577 goto bad; 

578 ) 

579 ) 

580 switch (opt) ( 

581 default: 

582 break; 

719 ) 

720 if (forward) ( 

721 ip forward(m, 1); 

722 return (1); 

723 ) 

724 return (0); 

725 bad: 

726 ip-»ip len -= ip-»ip hl << 2; 

727 icmp error(m, type, code, O0, 0); 

728 ipstat.ips badoptions-«-; 

729 return (1); 

730 ) 


图 9-8 ip _dqooptions 国 数 


我 们 在 8.$ 节 中 讲 到 ， 并 不 为 源 路 由 选择 分 组 生成 ICMP 重 定向 


在 传 给 ip_forwarad 时 设置 第 2 个 参数 的 原因 。 


ip input.c 





这 就 是 为 什么 
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如 采 转 发 了 分 组 ， 则 ip_daooptions 返 回 1。 如 果 分 组 中 没有 源 路 由 ， 则 返回 0 给 
ipintr， 表明 需 要 对 该 数据 报 进一步 处 理 。 注 意 ， 只 有 当 系 统 被 配置 成 路 由 器 时 
(ipforwardingSET1), 才 发 生源 路 由 转发 。 

从 某 种 程度 上 说 ， 这 是 一 个 有 些 了 矛盾 的 策略 ， 但 却 是 RFC 1122 的 书面 要 求 。 

RFC 1127 [Braden 1989c] 把 它 作 为 一 个 公开 问题 加 以 阐述 。 


3. 差错 处 理 
725-730 如 果 在 switch 语 句 里 出 现 了 错误 ，ip_dooptions 就 跳 到 bad。 从 分 组 长 度 中 
把 IP 首 部 长 度 减 去 ， 因 为 icmp_ ay pi 不 包含 在 分 组 长 度 里 。icmp_error 发 
出 适当 的 差错 报 文 ，ip_dooptions 返 回 !， 人 避免 ipintr 处 理 被 丢弃 的 分 组 。 

下 一 节 摘 述 NeV3 处 理 的 所 有 选项 。 


9.5 记录 路 由 选项 


记录 路 由 选项 使 得 分 组 在 罕 过 互联 网 时 所 经 过 的 路 由 被 记录 在 分 组 内 部 。 项 的 大 小 是 源 
主机 在 构造 时 确定 的 ， 必 须 足 够 保存 所 有 预期 的 地 址 。 bigis 选项 最 多 
只 能 有 40 字 三 。 记 录 路 由 选项 可 以 有 3 个 字 市 的 开销 ， 后 面 紧 跟 地 址 的 列表 (每 个 地 址 4 字 节 )。 
如 本 该 选项 是 唯一 的 选项 ， 则 最 多 可 以 有 9 个 (3+4x9=39) 地 址 出 现 。 一 旦 分 配给 该 选项 的 

空间 被 填 满 ， 就 按 通常 的 情况 对 分 组 进行 转发 ， 中 间 的 系统 就 不 再 记录 地 址 。 

i ai 图 9-10 是 其 源 程序 。 

address 2 


e len Sar address 1 address n 
(offset = 4) (offset = 8) (offset = 4n) 


4 字 节 4 字 节 4 字 节 


图 9-9 记录 路 由 选项 ， 其 中 n 必 须 <9 












ip_input.c 
647 case IPOPT RR: 
648 if ((off = cp[IPOPT OFFSET]) < IPOPT MINOFF) ( 
649 code - &cp[IPOPT OFFSET] - (u char *) ip; 
650 goto bad; 
651 ) 
652 p 
653 * If no space remains, ignore. 
654 at d 
655 off--; /* 0 origin */ 
656 if (off » optlen - sizeof(struct in addr)) 
657 break; 
658 bcopy((caddr t) (&ip-»ip dst), (caddr t) & ipaddr.sin addr, 
659 sizeof(ipaddr.sin addr)); 
660 re 
661 * locate outgoing interface; if we're the destination, 
662 * use the incoming interface (should be same). 
663 *y 
664 if ((ia = (INA) ifa ifwithaddr((SA) & ipaddr)) == 0 && 
665 (ia = ip rtaddr(ipaddr.sin addr)) == 0) ( 
666 type - ICMP UNREACH; 
667 code - ICMP UNREACH HOST; 


图 9-10 函数 ijp_dooptions: 记录 路 由 选项 的 处 理 
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668 goto bad; 

669 ) 

670 bcopy((caddr t) & (IA SIN(ia)-»sin addr), 

671 (caddr t) (cp + off), sizeof(struct in addr)); 
672 Cp[IPOPT OFFSET] += sizeof(struct in_addr); 

673 break; 


ip input.c 
图 9-10 (£x) 


647-657 ”如 果 位 移 选项 太 小 ， 则 ip_dooptions 就 发 送 一 个 ICMP 参 数 问题 差错 。 如 果 变 
量 code 被 设置 成 分 组 内 无 效 选项 的 字 节 位 移 量 ， 并 且 bad 标 号 (图 9-8) 语 句 的 执行 产生 错误 ， 
则 发 出 的 ICMP 参 数 问题 差错 报 文中 就 具有 该 code 值 。 如 果 选 项 中 没有 附加 地 址 的 空间 ， 则 
忽略 该 选项 ， 并 继续 处 理 下 一 个 选项 。 
记录 地 址 
658-673 如 果 ip_dst 是 某 个 系统 地 址 (分 组 已 到 达 目 的 地 )， 则 把 接收 接口 的 地 址 记录 在 选项 
中 ， 否 则 把 ip_rtadadr 提 供 的 外 出 接口 的 地 址 记录 下 来 。 把 位 移 更 新 为 选项 中 下 一 个 可 用 地 
址 位 置 。 如 果 ip_rtagar 无 法 找到 到 目的 地 的 路 由 ， 就 发 送 一 个 ICMP 主 机 不 可 达 差 错 报 文 。 
卷 1 的 7.3 节 举 了 一 些 记录 路 由 选项 的 例子 。 


ip rtaddriQZi 


函数 ip_rtadqdr 查 询 路 由 缓存 ， 必 要 时 查询 完整 的 路 由 表 ， 来 找到 到 给 定 IP 地 址 的 路 由 。 
它 返 回 一 个 指 风 in_ifaddqr 结 构 的 指针 ， 该 指针 与 该 路 由 的 外 出 接口 有 关 。 图 9-11 显 示 了 该 
函数 。 





Sa ip_input.c 
735 struct in ifaddr * 
736 ip rtaddr(dst) 
737 struct in addr dst; 
738 ( 
739 struct sockaddr in *sin; 
740 Sin - (struct sockaddr in *) &ipforward rt.ro dst; 
741 if (ipforward rt.ro rt == 0 || dst.s addr !- sin-»sin addr.s addr) ( 
742 1f lipforward rt.ro.rt) A 
743 RTFREE(ipforward rt.ro rt); 
744 ipforward rt.ro rt - 0; 
745 ) 
746 sin-»sin family = AF INET; 
747 sin-»sin len = sizeof(*sin); 
748 sin-»sin addr = dst; 
749 rtalloc(&ipforward rt); 
750 ) 
751 if (ipforward rt.ro rt == 0) 
752 return ((struct in ifaddr *) 0); 
753 return ((struct in ifaddr *) ipforward rt.ro rt-»rt ifa); 
754 ) E. 4 
ip imnput.c 
图 9-11 函数 ijp rtaddr: 寻找 外 出 的 接口 
1. 检查 IP 转 发 缓存 


735-741 如 果 路 由 缓存 为 空 ， 或 者 如 果 ip_rtadqdr 的 唯一 参数 dest 与 路 由 缓存 中 的 目的 
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地 不 匹配 ， 则 必须 查询 路 由 表 选 择 一 个 外 出 的 接口 。 

2. 确定 路 由 
742-750 有 旧 的 路 由 (如 果 有 的 话 ) 被 丢弃 ， 并 把 新 的 路 由 储存 在 * sin( 这 是 转发 缓存 的 
ro_dst 成 员 )。rtalloc 搜 索 路 由 表 ， 寻 找到 目的 地 的 路 由 。 

3. 返回 路 由 信息 
751-754 如 果 没 有 路 由 可 用 ， 就 返回 一 个 空 指针 ;， 否则 ， 就 返回 一 个 指针 ， 指 疝 与 所 选 路 
由 相关 联 的 接口 地 址 结构 。 


9.6 源 站 和 记录 路 由 选项 


常 是 在 中 间 路 由 器 所 选择 的 路 径 上 转发 分 组 。 源 站 和 记录 路 由 选项 允许 源 站 明确 指定 
A 覆盖 掉 中 间 路 由 雁 的 路 由 选择 决定 。 而 且 ， 在 分 组 到 达 目 的 地 的 过 程 
中 ， 把 该 路 由 记录 下 来 。 

严格 路 由 包含 了 源 站 和 目的 站 之 间 的 每 个 中 间 路 由 器 的 地 址 ， 宽 松 路 由 只 指定 某 些 中 间 
路 由 器 的 地 址 。 在 宽松 路 由 中 ， 路 由 器 可 以 自由 选择 两 个 系统 之 间 的 任何 路 符 ， 而 在 严格 路 
由 中 ， 则 不 允许 路 由 器 这 样 做 。 我 们 用 图 9-12 说 明 源 路 由 处 理 。 

A、B 和 C 是 路 由 器 ， 而 HS 和 HD 是 源 和 目的 主机 。 因 为 每 个 接口 都 有 自己 的 IP 地 址 ， 所 以 
我 们 看 到 路 由 器 A 有 三 个 地 址 : Ai，A: 和 As。 同 样 ， 路 由 器 B 和 C 也 有 多 个 地 址 。 图 9-13 显 示 
了 源 站 和 记录 路 由 选项 的 格式 。 








图 9-12 源 路 由 举例 
address address 2 address n 
We | GERI Do] dem 
4 F 4E 4 F 


图 9-13 严格 和 宽松 源 路 由 选项 


IP 首 部 的 源 和 目的 地 址 以 及 在 选项 中 列 出 的 位 移 和 地 址 表 ， 指 定 了 路 由 以 及 分 组 目前 在 
该 路 由 中 所 处 的 位 置 。 图 9-14 显 示 ， 当 分 组 按照 这 个 宽松 源 路 由 从 HS 经 A、B、C 到 HD 时 ， 信 
息 是 如 何 改变 的 。 每 行 代 表 当 分 组 被 第 1 列 显示 的 系统 发 送 时 的 状态 。 最 后 一 行 显示 分 组 被 
HD 接收 。 图 9-15 显 示 了 相关 的 代码 。 

符号 "€ 表示 位 移 与 路 由 中 地 址 的 相对 位 置 。 注 意 ， 每 个 系统 都 把 出 接口 的 地 址 放 到 选 
项 去 。 特 别 地 ， 原 来 的 路 由 指定 A: 为 第 一 跳 目 的 地 ， 但 是 外 出 接口 A: 被 记录 在 路 由 中 。 通 过 
这 种 方法 ， 分 组 所 采用 的 路 由 被 记录 在 选项 中 。 被 记录 的 路 由 将 被 目的 地 系统 倒转 过 来 放 到 
所 有 应 答 分 组 上 ， 让 它们 沿 着 原始 的 路 由 的 逆 方 向 发 送 。 


除了 UDP，Net/3 在 应 答 时 总 是 把 收 到 的 源 路 由 逆转 过 来 。 
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图 9-14 当 分 组 通过 该 路 由 时 ， 源 路 由 选项 被 修改 。 


em js ip input.c 
584 * Source routing with record. 

585 * Find interface with current destination address. 
586 * If none on this machine then drop if strictly routed, 
587 * or do nothing if loosely routed. 

588 * Record interface address and bring up next address 
589 * component. If strictly routed make sure next 

590 * address is on directly accessible net. 

591 "p 

592 case IPOPT LSRR: 

593 case IPOPT SSRR: 

594 if ((off = cp[IPOPT OFFSET]) < IPOPT MINOFF) ( 

595 code - &cp[IPOPT OFFSET] - (u char *) ip; 

596 goto bad; 

597 ) 

598 ipaddr.sin addr = ip-»ip dst; 

599 ia = (struct in ifaddr *) 

600 ifa ifwithaddr((struct sockaddr *) &ipaddr); 

601 if (ia == 0) ( 

602 if (opt -- IPOPT SSRR) ( 

603 type - ICMP UNREACH; 

604 code = ICMP UNREACH. SRCFAIL; 

605 goto bad; 

606 ) 

607 [* 

608 * Loose routing, and not at next destination 

609 * yet; nothing to do except forward. 

610 ET 

611 break; 

612 ) 

613 off--; /*.0 origin */ 

614 if (off > optlen - sizeof(struct in addr)) { 

615 ys 

616 * End of source route. Should be for us. 

617 Ey 

618 save rte(cp, ip->ip_src); 

619 break; 

620 ) 

621 "di 

622 * locate outgoing interface 

623 a 

624 bcopy((caddr t) (cp + off), (cadar t) & ipaddr.sin addr, 
625 sizeof(ipaddr.sin addr)); 

626 if (opt == IPOPT SSRR) f 

627 *define INA struct in ifaddr * 

628 #define SA struct sockaddr * 

629 if ((ia = (INA) ifa ifwithdstaddr((SA) & ipaddr)) -- 0) 


图 9-15 函数 jp dooptions: LSRR 和 SSRR 选 项 处 理 
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630 ia - (INA) ifa ifwithnet((SA) & ipaddr); 

631 ) else 

632 ia - ip rtaddr(ipaddr.sin addr); 

633 if [in == 0) i 

634 type - ICMP UNREACH; 

635 code - ICMP UNREACH SRCFAIL; 

636 goto bad; 

637 ) 

638 ip-»ip dst = ipaddr.sin addr; 

639 bcopy((caddr t) & (IA SIN(ia)-»sin addr), 

640 (caddr t) (cp + off), sizeof(struct in addr)); 
641 Cp[IPOPT OFFSET] += sizeof(struct in addr); 

642 p* 

643 * Let ip intr's mcast routing check handle mcast pkts 
644 Ey 

645 forward = !IN MULTICAST(ntohl(ip-»ip dst.s addr)); 
646 break 


ip input.c 
图 9-15 (£x) 

583-612 如 果 选 项 位 移 小 于 4 (IPOPT _MINOEFE)， 则 Net3 发 送 一 个 ICMP 参 数 问 题 差 错 ， 并 
带 上 相应 的 code 值 。 如 采 分 组 的 目的 地 址 与 本 地 地 址 没有 一 个 匹配 ， 且 选项 是 严格 源 路 由 
(IPOPT_SSRR)， 则 发 送 一 个 源 路 由 失败 差错 。 如 采 本 地 地 址 不 在 路 由 中 ， 则 上 一 个 系统 把 
分 组 发 送 到 错误 的 主机 上 了 。 对 宽松 路 由 (IPOPT_LSRR) 来 说 ， 这 不 是 错误 ; 仅 意 味 着 IP 必 须 
把 分 组 转发 到 目的 地 。 

1. 源 路 由 的 结束 
613-620 减 小 off， 把 它 转换 成 从 选项 开始 的 字 市 位 移 。 如 果 IP 首 部 的 ijp_dst 是 某 个 本 地 
地 址 ， 并 且 off 所 指向 的 超过 了 源 路 由 的 末尾 ， 源 路 由 中 没有 地 址 了 ， 则 分 组 已 经 到 达 了 目的 
地 。save_rte 复 制 在 静态 结构 ijp_srcrt 中 的 路 由 ， 并 保存 在 全 局 ijp_nhops( 图 9-18) 里 路 
由 中 的 地 址 个 数 。 

ip_srcrt 被 定义 成 为 一 个 外 部 静态 结构 ， 因 为 它 只 能 被 在 ijp_input .c 中 定 

义 的 函数 芒 问 。 

2. 为 下 一 跳 更 新 分 组 
621-637 如 果 ip_dst 是 一 个 本 地 地 址 ， 并 且 offset 指 向 选项 内 的 一 个 地 址 ， 则 该 系统 是 
源 路 由 中 指定 的 一 个 中 间 系 统 ， 分 组 也 没有 到 达 目 的 地 。 在 严格 路 由 中 ， 下 一 个 系统 必须 位 
于 某 个 直接 相连 的 网 络 上 。ifa ifwithdstflifa ifwithnet 通 过 在 配置 的 接口 中 搜索 
匹配 的 目的 地 址 (一 个 点 到 点 的 接口 ) 或 匹配 的 网 络 地 址 (广播 接口 ) 来 寻找 一 条 到 下 一 个 系统 的 
路 由 。 而 在 宽松 路 由 中 ，ip _rtaddr( 图 9-11) 通 过 查询 路 由 表 来 寻找 到 下 一 个 系统 的 路 由 。 
如 果 没 有 找到 到 下 一 系统 的 接口 或 路 由 ， 就 发 送 一 个 ICMP 源 路 由 失败 差错 报 文 。 
638-644 如 果 找 到 一 个 接口 或 一 条 路 由 ， 则 ip_dooptions 把 ip_dst 设 置 成 off 指 癌 的 
IP 地 址 。 在 源 路 由 选项 内 ， 用 外 出 接口 的 地 址 代替 中 间 系 统 的 地 址 ， 把 位 移 增加 ， 指 向 路 由 
中 的 下 一 个 地 址 。 

3. 多 播 目 的 地 
645-646 如果 新 的 目的 地 址 不 是 多 播 地 址 ， 就 将 forwarqd 设 置 成 1， 表 明 在 处 理 完 所 有 碗 
项 后 ， 应 该 把 分 组 转发 而 不 是 返回 给 ijpintr。 

源 路 由 中 的 多 播 地 址 允许 两 个 多 播 路 由 器 通过 不 支持 多 播 的 中 间 路 由 器 进行 通信 。 第 14 
章 详细 描述 了 这 一 技术 。 
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卷 1 的 8.5 节 有 更 多 的 源 路 由 选项 的 例子 。 


9.6.1 


save rte ži 


RFC 1122 要 求 ， 在 最 终 目 的 地 ， 运 输 协议 必须 能 够 使 用 分 组 中 被 记录 下 来 的 路 由 。 运 输 
协议 必须 把 该 路 由 倒 过 来 并 附 在 所 有 应 答 的 分 组 上 。 图 9-18 中 显示 的 save_Fzte 国 数 ， 把 谣 
路 由 保存 在 如 图 9-16 所 示 的 jp_srcrt 结 构 中 。 








57 int ip nhops = 0; HP Me 
58 static struct ip srcrt ( 
59 struct in addr dst; /* final destination */ 
60 char nop; /* one NOP to align */ 
61 char srcopt[IPOPT OFFSET + 1]; /* OPTVAL, OLEN and OFFSET */ 
62 struct in addr route[MAX IPOPTLEN / sizeof(struct in addr)]; 
63 } ip stcrt; ae 
ip input.c 


57-63 


LD sr 


图 9-16 结构 ip srcrt 


Route 的 声明 是 不 正确 的 ， 有 尽管 这 不 是 个 恶性 错误 。 应 该 是 
Struct in addr route[(MAX IPOPTLEN - 3)/sizeof(struct in addr)]; 


对 图 9-26 和 图 9-27 的 讨论 详细 地 说 明了 这 个 问题 。 
该 代码 定义 了 ip_srcxrt 结 构 , 并 声明 了 静态 变量 ipP_szctzt。 只 有 两 个 国 数 访问 
crt; save rte， 把 到 达 分 组 中 的 源 路 由 复制 到 ip_srcrt 中 ; ip_srcroute, 创 


建 一 个 与 源 路 由 方向 相 逆 的 路 由 。 图 9-17 说 明了 源 路 由 处 理 过 程 。 


799 
760 
761 
762 
763 
764 


765 
766 
767 
768 
769 
770 
T7741 





ip. dooptions 


传输 协议 








图 9-17 对 求 逆 后 的 源 路 由 的 处 理 


; ip_input.c 
void 
save rte(option, dst) 
u char *option; 
struct in addr dst; 
( 


unsigned olen; 


olen = option[IPOPT OLEN]; 
if (olen > sizeof(ip srcrt) - (1 + sizeof(dst))) 
return; 
bcopy((caddr t) option, (caddr t) ip srcrt.srcopt, olen); 
ip nhops - (olen - IPOPT OFFSET - 1) / sizeof(struct in addr); 
ip srcrt.dst = dst; 


ip input.c 
图 9-18 rZ save rte 
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759-771 当 一 个 源 路 由 选择 的 分 组 到 达 目 的 地 时 ，ip_dooptions 调 用 save_rte。 
option 是 一 个 指向 分 组 的 源 路 由 选项 的 指针 ，dst 是 从 分 组 首部 来 的 ijp_src (也 就 是 ， 返 回路 
由 的 目的 地 ， 图 9-12 中 的 HS)。 如 果 选 项 的 长 度 超 过 ijp_srcrt 结 构 ，save_rte 立 即 返 回 。 
永远 也 不 可 能 发 生 这 种 情况 ， 因 为 jp _srcrt 结 构 比 最 大 选项 长 度 (40 字 节 ) 要 大 。 
save rte 把 该 选项 复制 到 ip_srcrt， 计算 并 保存 ijp_nhops 中 源 路 由 的 跳 数 ， 把 返回 
路 由 的 目的 地 保存 在 dst 中 。 
9.6.2 ip srcecroute ži 


当 响 应 某 个 分 组 时 ，ICMP 和 标准 的 运输 层 协议 必须 把 分 组 带 的 任意 源 路 由 逆转 。 逆 转 源 
路 由 是 通过 ip_szrcroute 保 存 的 路 由 构造 的 ， 如 图 9-19 所 示 。 





777 struct mbuf * Pp 
778 ip_srcroute() 

779 ( 

780 struct in addr *p, *q; 

781 struct mbuf *m; 

782 if (ip.nhops == 0) 

783 return ((struct mbuf *) 0); 

784 m - m get(M DONTWAIT, MT SOOPTS); 

785 if (m == 0) 

786 return ((struct mbuf *) 0); 

787 $define OPTSIZ  (sizeof(ip srcrt.nop) + sizeof(ip srcrt.srcopt)) 
788 /* length is (nhops*1)*sizeof(addr) + sizeof (nop + srcrt header) */ 
789 m-»m len = ip nhops * sizeof(struct in addr) + sizeof(struct in_addr) + 
790 OPTSIZ; 

791 id 

792 * First save first hop for return route 

793 Ky 

794 p = &ip srcrt.route[ip nhops - 1]; 

795 *(mtod(m, struct in_addr *)) = *p--; 

796 /* 

793 * Copy option fields and padding (nop) to mbuf. 

798 "f 

799 ip srcrt.nop = IPOPT NOP; 

800 ip srcrt.srcopt[IPOPT OFFSET] = IPOPT MINOFF; 

801 bcopy((caddr t) & ip srcrt.nop, 

802 mtod(m, caddr t) + sizeof(struct in_addr), OPTSIZ); 
803 q = (struct in addr *) (mtod(m, caddr t) + 

804 sizeof(struct in addr) + OPTSIZ); 
805 #undef OPTSIZ 

806 Jn 

807 * Record return path as an IP source route, 

808 * reversing the path (pointers are now aligned). 

809 wz 

810 while (p >= ip srcrt.route) { 

811 "ue e *p=-=; 

812 } 

813 "ai 

814 * Last hop goes to final destination. 


图 9-19 ip srcroute pk% 
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815 */ 

816 *q = ip srcrt.dst; 
817 return (m); I 
818 ) 


ip input.c 
图 9-19 (fx) 


777-783 ip srcroute 把 保存 在 ip_srcrt 结 构 中 的 源 路 由 逆转 后 ， 返回 与 poption 
结构 (图 9-26) 格 式 类 似 的 结果 。 如 果 ip_nhops 是 0， 则 没有 保存 的 路 由 ， 所 以 


ip _ szrctroute 返 回 一 个 指针 。 


记得 在 图 8-13 中 ， 当 一 个 无 效 分 组 到 达 时 ，ipintr 把 jp_nhops 清 替 。 运 输 屋 
协议 必须 调用 ip srcroute， 并 在 下 一 个 分 组 到 达 之 前 自己 保存 逆转 后 的 路 由 。 正 
如 以 前 我 们 注意 到 的 ， 这 样 做 是 正确 的 ， 因 为 ipintr 在 处 理 分 组 时 ， 在 IP 输 入 队列 的 
下 一 个 分 组 被 处 理 之 前 都 会 调用 运输 层 (TCP 或 UDP) 的 。 


为 源 路 由 分 配 存储 器 缓存 
784-786 如 果 ip nhops 非 0, ip_srcroute 就 分 配 一 个 mbuf, 并 把 m_len 设 置 成 足够 大 ， 
以 便 包 含 第 一 跳 目 的 地 、 选 项 首部 信息 (OPTSIZ) 以 及 逆转 后 的 路 由 。 如 果 分 配 失 败 ， 则 返回 
一 个 空 指针 ， 跟 没有 源 路 由 一 样 。 

p 被 初始 化 为 指向 到 达 路 由 的 末尾 , ip_srcroute 把 最 后 记录 的 地 址 复制 到 mbuf 的 前 面 ， 
在 这 里 它 为 外 出 的 第 一 跳 目的 地 开始 逆转 后 的 路 由 。 然 后 该 函数 把 一 份 NOP 选 项 (习题 9.4) 和 
源 路 由 信息 复制 到 mbuf 中 。 
805-818 ”While 循环 把 其 余 的 IP 地 址 从 源 路 由 中 以 相反 的 顺序 复制 到 mbuf 中 。 路 由 的 最 
后 一 个 地 址 被 设置 成 到 达 分 组 中 被 save_rte 放 在 ijp_srcrt .dst 中 的 源 站 地 址 。 返 回 一 个 
指向 mbuf 的 指针 。 图 9-20 说 明了 对 图 9-12 的 路 由 如 何 构造 逆转 的 路 由 。 


4 字 节 


nop (IPOPT NOP) 
srcopt[0] (IPOPT SSRR) 
srcopt [1] (option-length) 







srcopt [2] (option-offset) 


ip srcrt: 
route[0] route[1] route[2] route[3-9] 
DeHEDR DAT asm — 55 | 
源 路 由 选项 


图 9-20 mM ip srcrt : 的 路 由 


97 时 间 惟 选项 


当 分 组 穿 过 一 个 互联 网 时 ， 时 间 惟 选项 使 各 个 系统 把 它 当 前 的 时 间 表 示 记 录 在 分 组 的 选 
项 内 。 时 间 是 以 从 UTC 的 午夜 开始 计算 的 毫秒 计 ， 被 记录 在 一 个 32 bit 的 字段 里 。 

如 果 系 统 没有 准确 的 UTC( 几 分 钟 以 内 ) 或 没有 每 秒 更 新 至 少 15 次 ,就 不 把 它 作为 标准 时 间 。 
非 标准 时 间 必 须 把 时 间 惟 字段 的 高 比特 位 置 位 。 
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有 三 
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种 时 间 改 选项 类 型 ，Net/3 通 过 如 图 9-22 所 示 的 ip _ timestamp 结 构 访问 。 


114-133 ”如同 ip 结 构 ( 图 8-10) 一 样 ，#ifs 保 证 比特 字段 访问 选项 中 正确 的 比特 位 。 图 9-21 
中 列 出 了 由 :ipt_f1g 指 定 的 三 种 时 间 惟 选项 类 型 。 


114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
139 
131 
132 
133 


IPOOPT TS TSONLY ic slt i8] X 
IPOPT TS TSANDADDR 记录 地 址 和 时 间 惟 


保留 
IPOPT TS PRESPEC 只 在 预先 指定 的 系统 记录 时 间 惟 
保留 





图 9-21 ipt fl1g 可 能 的 值 


ip.h 
struct ip timestamp ( 
u_char ipt code; /* IPOPT TS */ 
u_char ipt len; /* size of structure (variable) */ 
u_char ipt ptr; /* index of current entry */ 
#if BYTE ORDER == LITTLE ENDIAN 
u char ipt flg:4, /* flags, see below */ 
ipt of1w:4; /* overflow counter */ 
#endif 
#if BYTE_ORDER == BIG_ENDIAN 
u char ipt oflw:4, /* overflow counter */ 
ipt flg:4; /* flags, see below */ 
#endif 
union ipt timestamp { 
n long ipt time[1]; 
struct ipt ta { 
struct in addr ipt addr; 
n long ipt time; 
) ipt ta[1]; 
) ipt timestamp; 
2 ip.h 


图 9-22 ip timestamp 结 构 和 常量 


初始 主机 必须 构造 一 个 具有 足够 大 的 数据 区 存放 可 能 的 时 间 惟 和 地 址 的 时 间 戳 选项。 对 
于 ipt_f1g 为 3 的 时 间 戳 选项， 初始 主机 在 构造 该 选项 时 ， 填 写 要 记录 时 间 惟 的 系统 的 地 址 。 
图 9-23 显 示 了 三 种 时 间 戳 选项 的 结构 。 


ode n - time[1] time [2] 
68 p (ptr = 4) (ptr =8) 
ode n TA 1 ta[1].addr | ta[1].time 
68 p (ptr - 4) (ptr = 8) 
Bass er ta[1].addr | ta[1].time 
s ai = i (ptr -8) 


oflw 
flg 


















time [7-2] time [n-1] time [r] 
(ptr = 475-8) | (ptr = 4n-4) (ptr = 4n) 
ta[n].addr | ta[r].time 

(ptr = 8n-4) (ptr - 8n) 






3 —— ta[n].time 
Tie = 8n-4) (ptr = 8n) 


4 字 节 4x5 4 FH 
图 9-23 三 种 时 间 戳 选项 (省 略 ipt_ ) 


因为 选项 只 能 有 40 字 节 ， 所 以 时 间 惟 选项 限制 只 能 有 9 个 时 间 惟 (ipt_f1g 等 于 0) 或 4 个 
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地 址 和 时 间 惟 对 (ipt_f1g 等 于 1 或 3)。 图 9-24 显 示 了 对 三 种 不 同 的 时 间 惟 选项 类 型 的 处 理 。 
674-684 如 果 选 项 长 度 小 于 $ 字 节 ( 时 间 惟 选项 的 最 小 长 度 )， 则 ip_dqooptions 发 出 一 个 
ICMP 参 数 问 题 差 错 报 文 。of1w 字 段 统计 由 于 选项 数据 区 满 而 无 法 登记 时 间 惟 的 系统 个 数 。 
如 果 数 据 区 满 ， 则 of 1w 加 1， 当 它 本 身 超过 16( 它 是 一 个 4 bit 的 字段 ) 而 溢出 时 ， 发 出 一 个 
ICMP 参 数 问题 差错 报 文 。 


ip_input.c 

674 case IPOPT TS: 

675 code = cp - (u char *) ip; 

676 ipt = (struct ip timestamp *) cp; 

677 if (ipt-»ipt len < 5) 

678 goto bad; 

679 if (ipt-»ipt ptr > ipt-»ipt len - sizeof(long)) ( 

680 if (**ipt-»ipt oflw == 0) 

681 goto bad; 

682 break; 

683 ) 

684 sin = (struct in_addr *) (cp + ipt-»ipt ptr - 1); 

685 switch (ipt-»ipt flg) ( 

686 case IPOPT TS TSONLY: 

687 break; 

688 case IPOPT TS TSANDADDR: 

689 if (ipt-»ipt ptr + sizeof(n time) + 

690 sizeof(struct in_addr) > ipt-»ipt len) 

691 goto bad; 

692 ipaddr.sin addr - dst; 

693 ia - (INA) ifaof ifpforaddr((SA) & ipaddr, 

694 m-»m pkthdr.rcvif); 

695 if (ia == 0) 

696 continue; 

697 bcopy((caddr t) & IA SIN(ia)-»sin addr, 

698 (caddr t) sin, sizeof(struct in addr)); 

699 ipt-»ipt ptr += sizeof(struct in addr); 

700 break; 

701 case IPOPT TS PRESPEC: 

702 if (ipt-»ipt ptr + sizeof(n time) + 

703 sizeof(struct in addr) > ipt-»ipt len) 

704 goto bad; 

705 bcopy((caddr t) sin, (caddr t) & ipaddr.sin addr, 

706 sizeof(struct in addr)); 

707 if (ifa ifwithaddr((SA) & ipaddr) == 0) 

708 continue; 

709 ipt-»ipt ptr += sizeof(struct in addr): 

710 break; 

"Ad default: 

712 goto bad; 

713 ) 

714 ntime - iptime(); 

715 bcopy((caddr t) & ntime, (caddr t) cp + ipt-»ipt ptr - 1, 

716 sizeof (n time)); 

717 ipt-»ipt ptr += sizeof(n time); 

718 ) 

719 ) *- 
ip input.c 


图 9-24 函数 ip_dooptions: 时 间 改 选项 处 理 
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1. FURIBEIR] RR 
685-687 对 于 ipt_f1g 为 0 的 时 间 惟 选项 (ITPOPT TS TSONLY)， 所 有 的 工作 都 在 switch 
语句 之 后 再 做 。 

2. 时 间 难 和 地 址 
688-700 对 于 ipt f1g 为 1 的 时 间 玲 选项 (IPOPT TS TSANDADDR), 接收 接 口 的 地 址 被 记 
录 下 来 (如 果 数 据 区 还 有 空间 )， 选 项 的 指针 前 进一步 。 因 为 Net/3 支 持 一 个 接收 接口 上 的 多 IP 
地 址 ， 所 以 ip_dqooptions 调 用 ifaof_ifpforaddqr 选 择 与 分 组 的 初始 目的 地 址 (也 就 是 在 
任何 源 路 由 选择 发 生 之 前 的 目的 地 ) 最 匹配 的 地 址 。 如 果 没 有 匹配 ， 则 跳 过 时 间 惟 选项 INR 和 
SA 定义 如 图 9-15 所 示 )。 

3. Bi mb E BS E T] REX 
701-710 如 果 ipt f1g7j3 (IPOPT TS PRESPEC), ifa ifwithaddr 确 定 选 项 中 指定 
的 下 一 个 地 址 是 否 与 系统 的 某 个 地 址 匹配 。 如 果 不 匹 配 ， 该 选项 要 求 在 这 个 系统 上 不 处 理 ， 
continue 使 ijp_dooptions 继 续 处 理 下 一 个 选项 。 如 果 下 一 个 地 址 与 系统 的 某 个 地 址 匹配 ， 
则 选项 的 指针 前 进 到 下 一 个 位 置 ， 控 制 交 给 switch 的 后 面 。 

4. 插 人 时 间 惟 
711-713 default 截 获 无 效 的 jpt _f1g 值 ， 并 把 控制 传递 到 bad。 
714-719 时 间 惟 用 switch 语 句 后 面 的 代码 写 和 人 到 选项 中 。iptime 返 回 自从 UTC 午夜 起 到 
现在 的 毫秒 数 ，ip_dqooptions 记 录 此 时 间 戳 ， 并 增加 此 选项 相对 于 下 一 个 位 置 的 偏 移 。 


iptime M% 


图 9-25 显 示 iptime 的 实现 。 


458 n time pans 
459 iptime() 
460 ( 
461 struct timeval atv; 
462 u long t; 
463 microtime(&atv); 
464 t = (atv.tv sec % (24 * 60 * 60)) * 1000 + atv.tv usec / 1000; 
465 return (htonl(t)); 
466 ) Tee 
ip icmp.c 


图 9-25 pK Zriptime 


458-466 microtime 返 回 从 UTC1970 年 1 月 1 日 午夜 以 来 的 时 间 ， 放 在 timeval 结 构 中 。 
从 午夜 以 来 的 毫秒 数 用 atv 计 算 ， 并 以 网 络 字 市 序 返 回 。 
卷 1 的 7.4 市 有 几 个 时 间 稚 选项 的 例子 。 


9.8 ip insertoptions 函 数 


我 们 在 8.6 证 看 到 ，ip_output 尔 数 接 收 一 个 分 组 和 选项 。 当 ijp_forward 调 用 该 函数 
时 ， 选 项 已 经 是 分 组 的 一 部 分 ， 所 以 ip_forwazd 总 是 把 一 个 空 选项 指针 传 给 ip_output。 
但 是 ， 运 输 层 协议 可 能 会 把 由 ijp_insertoptions( 由 图 8-22 中 的 ijp_output 调 用 ) 合 并 到 
分 组 中 的 选项 传递 给 ip_forward。 
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ip_insertoptions 希 望 选 项 在 ijpoption 结 构 中 被 格式 化 ， 如 图 9-26 所 示 。 


: 5 ip_var.h 
92 struct ipoption ( 
93 struct in addr ipopt dst; /* first-hop dst if source routed */ 
94 char ipopt list[MAX IPOPTLEN]; /* options proper */ 
95 ); 
ip var.h 


图 9-26 结构 ipoption 


92-95 该 结构 只 有 两 个 成 员 : ipopt_dqst， 如 果 选 项 表 中 有 源 路 由 ， 则 其 中 有 第 一 跳 目 的 
地 ，ipopt_1ist， 是 一 个 最 多 40(MAX_IPOPTLEN) 字 节 的 选项 和 矩阵， 其 格式 我 们 在 本 章 中 
已 做 了 描述 。 如 果 选 项 表 中 没有 源 路 由 ， 则 ipopt_adst 全 为 0。 

注意 ，ip srcrt 结 构 ( 图 9-16) 和 由 ip _ srcroute( 图 9-19) 返 回 的 mbuf 都 符合 由 
ipoption 结 构 所 指定 的 格式 。 图 9-27 把 结构 ip_srcrt 和 ipoption 做 了 比较 。 


nop 
SYrecopBt [0] 


srcopt[1] 
srcopt(2] 


|a [||| [esem[pesen] rowers 8 
ipoption(í) ipopt list[40] "AME 


图 9-27 结构 ip srcrt 和 ipoption 






ip srcrt() 





4dH4ip srcrti!tipoption£44F $, X&wuW 4g SS -—^4-$H(route[91) 
永远 都 不 会 填 上 ， 因 为 这 样 的 话 ， 源 路 由 选项 将 会 有 44 字 节 长 ， 比 IP 首 部 所 能 容纳 
的 要 大 (图 9-16)。 


图 数 ip_insertoptions 如 图 9-28 所 示 。 

352 static struct mbuf * qnupune 
353 ip insertoptions(m, opt, phlen) 
354 struct mbuf *m; 

355 struct mbuf *opt; 

356 int *phlen; 


357 ( 

358 struct ipoption *p - mtod(opt, struct ipoption *); 
359 struct mbuf *n; 

360 struct ip *ip = mtod(m, struct ip *); 

361 unsigned optlen; 

362 optlen = opt-»m len - sizeof(p-»ipopt dst); 

363 if (optlen + (u short) ip-»ip len > IP MAXPACKET) 
364 return (m); /* XXX should fail */ 
365 if (p-»ipopt dst.s addr) 

366 ip-»ip dst = p-»ipopt dst; 

367 if (m-»m flags & M EXT || m-»m data - optlen « m-»m pktdat) ( 
368 MGETHDR(n, M DONTWAIT, MT HEADER); 

369 if (n == 0) 


图 9-28 国 数 ip_insertoptions 


212 TCP/IP3ÉÉR 2: 实现 


370 return (m); 

3741 n-»m pkthdr.len = m-»m pkthdr.len + optlen; 

372 m-»m len -= sizeof(struct ip); 

373 m-»m data += sizeof(struct ip); 

374 n-»m next - m; 

375 m = n; 

376 m-»m len = optlen + sizeof(struct ip); 

377 m-»m data += max linkhdr; 

378 bcopy((caddr t) ip, mtod(m, caddr t), sizeof(struct ip)); 
379 ) else ( 

380 m-»m data -- optlen; 

381 m-»m len += optlen; 

382 m-»m pkthdr.len += optlen; , 

383 ovbcopy((caddr t) ip, mtod(m, caddr t), sizeof (struct ip)); 
384 ) 

385 ip » mtod(m, struct ip *); 

386 bcopy((caddr t) p-»ipopt list, (caddr t) (ip * 1), (unsigned) optlen); 
387 *phlen = sizeof(struct ip) + optlen; 

388 ip-»ip len += optlen; 

389 return (m); 

390 ) 


ip output.c 
图 9-28 (2) 


352-364 ip insertoptions 有 三 个 参数 : m， 外 出 的 分 组 ， opt ， 在 结构 中 格式 化 的 选 
项 ，phlen， 一 个 指向 整数 的 指针 ， 在 这 里 返回 新 首部 的 长 度 (在 插入 选项 之 后 )。 如 采 插 入 
选项 分 组 长 度 超过 最 大 分 组 长 度 65 535(IP_MAXPACKET) 字 节 ， 则 自动 将 选项 丢弃 。 
ip_dooptions 认 为 ip_insertoptions 永 远 都 不 会 失败 ， 所 以 无 法 报告 差错 。 生 好， 很 
少 有 应 用 程序 会 试图 发 送 最 大 长 度 的 数据 报 ， 更 别 说 选项 了 。 


mbuf() 


Ld 


max linkhdr 






分 配 的 


m pktdat 
为 以 太 网 首部 
(16 字 节 ) | 





m data 






PP 首部 
(20 字 节 ) 





TCP 首 部 
(20 字 市 ) 





100 字 市 





44 字 节 


图 9-29 Krip insertoptions: TCP 报 文 段 
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365-366 如 果 ipopt_dst.s_addr 指 定 了 一 个 非 零 地 址 ， 则 选项 中 包括 了 源 路 由 ， 并 且 
分 组 首部 的 ijp_dst 被 源 路 由 中 的 第 一 跳 目 的 地 代替 。 

在 26.2 市 中 ， 我 们 将 看 到 TCP 调 用 MGETHDR 为 IP 和 TCP 首 部 分 配 一 个 单独 的 mbuf。 图 9-29 
显示 了 在 第 367~378 行 代码 执行 之 前 ， 一 个 TCP 报 文 段 的 mbuf 结 构 。 


mbuf() 







其 他 的 存储 器 缓存 


m data — 





(20 字 Th) ge bi 3 
ITIN ARI IUE 


TCP 首 部 
(20 字 市 ) 


m data 










IP 选 项 
(optlen^7) 


m pktdat 


16 字 市 的 以 太 网 首部 和 


IE 
ns 56 字 节 的 卫 选 项 的 空间 


m data 





图 9-31 pip insertoptions; UDP 报 文 段 
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如 果 被 插入 的 选项 占据 了 多 于 16 的 字 节 数 ， 则 第 367 行 的 测试 为 真 ， 并 调用 MGETHDR 分 
配 另 一 个 mbuf。 图 9-30 显 示 了 选项 被 复制 到 新 的 mbuf 后 ， 该 缓存 的 结构 。 
367-378 如 果 分 组 首部 被 存放 在 一 徐 ， 或 者 第 一 个 缓存 中 没有 多 余 选 项 的 空间 ， 则 
ip insertoptions 分 配 一 个 新 的 分 组 首部 mbuf， 初 始 化 它 的 长 度 ， 从 旧 的 缓存 中 把 该 IP 
首部 截取 下 来 ， 并 把 该 首部 从 旧 缓 存 中 移动 到 新 缓存 中 。 

如 23.6 节 中 所 述 ，UDP 使 用 M_PREPEND 把 UDP 和 了 PP 首部 放置 到 缓存 的 最 后 ， 与 数据 分 离 。 
如 图 9-31 所 示 。 因 为 首部 是 放 在 缓存 的 最 后 ， 所 以 在 缓存 中 总 有 空间 存放 选项 ， 对 UDP 来 说 ， 
第 367 行 的 条 件 总 为 假 。 
379-384 如果 分 组 在 缓存 数据 区 的 开始 部 分 有 存放 选项 的 空间 ， 则 修改 m_data 和 m_len,， 
以 包含 optlen 更 多 的 字 节 。 并 且 当 前 的 IP 首 部 被 ovbcopy( 能 够 处 理 源 站 和 目的 站 的 重合 问 
题 ) 移 走 ， 为 选项 腾 出 位 置 。 
385-390 ip insertoptions 现 在 可 以 把 ijpoption 结 构 的 成 员 ipopt_1ist 直 接 复制 
到 紧 接 在 IP 首 部 后 面 的 缓存 中 。 把 新 的 首部 长 度 存 放 在 *phlen 中 ， 修改 数据 报 长 度 
(ip_len)， 并 返回 一 个 指向 分 组 首部 缓存 的 指针 。 


9.9 ip pcbopts AŽ 


函数 ip_pcbopts 把 IP 选 项 表 及 IP_OPTIONS 插 口 选 项 转换 成 jp_output 锅 望 的 格式 : 
ipoption 结 构 。 如 图 9-32 所 示 。 


一 一 ou t.c 
559 int p_outpu 


560 ip pcbopts(pcbopt, m) 
561 struct mbuf **pcbopt; 
562 struct mbuf *m; 


563 ( 

564 cnt, optlen; 

565 u char *cp; 

566 u_char opt; 

567 /* turn off any old options */ 

568 if (*pcbopt) 

569 (void) m free(*pcbopt); 

570 *pcbopt - 0; 

571 if (m == (struct mbuf *) 0 || m-»m len == O) ( 
572 /* 

573 * Only turning off any previous options. 
574 -y 

515 if (m) 

576 (void) m free (m); 

577 return (0); 

578 ) . 

579 if (m-»m len $ sizeof(long)) 

580 goto bad; 

581 J 

582 * IP first-hop destination address will be stored before 
583 * actual options; move other options back 

584 * and clear it when none present. 

585 vy i 
586 if (m-»m data + m-»m len + sizeof(struct in_addr) >= &m-»m dat[MLEN]) 
587 goto bad; 

588 cnt - m-»m len; 

589 m-»m len += sizeof (struct in addr); 


图 9-32 国 数 ip pcbopts 


590 
591 
592 


593 
594 
295 
596 
597 
598 
599 
600 
601 
602 
603 


604 


605 
606 


607 
608 
609 
610 
611 
612 
613 
614 
615 
616 
617 
618 
619 
620 
621 
622 
623 
624 
625 
626 
627 
628 
629 
630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
641 
642 


643 
644 
645 
646 ) 
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Cp = mtod(m, u char *) + sizeof(struct in addr); 
ovbcopy(mtod(m, caddr t), (caddr t) cp, (unsigned) cnt); 
bzero(mtod(m, caddr t), sizeof(struct in addr)); 


for (; cnt » 0; cnt == optlen, cp += optlen) ( 
opt - cp[IPOPT OPTVAL]; 
if (opt == IPOPT EOL) 
break; 
if (opt == IPOPT NOD) 
optlen = 1; 
else ( 


optlen - cp[IPOPT OLEN]; 
if (optlen «- IPOPT OLEN || optlen » cnt) 


goto bad; 
) 
switch (opt) ( 
default: 
break; 


case IPOPT LSRR: 
case IPOPT SSRR: 
/* 
* user process specifies route as: 
*  -»A-»5B-»C-»D 
* D must be our final destination (but we can't 
* check that since we may not have connected yet). 
* A is first hop destination, which doesn't appear in 
* actual IP option, but is stored before the options. 


T 
if (optlen < IPOPT MINOFF - 1 + sizeof(struct in addr)) 
goto bad; 
m-»m len -= sizeof(struct in_addr); 
cnt -= sizeof(struct in_addr); 
optlen -= sizeof(struct in addr); 
Cp[IPOPT OLEN] = optlen; 
/* 
* Move first hop before start of options. 
*/ 


bcopy((caddr t) & cp[IPOPT OFFSET + 1], mtod(m, caddr t), 
sizeof(struct in addr)); 
/* 
* Then copy rest of options back 
* to close up the deleted entry. 
kg 
ovbcopy((caddr t) (&cp[IPOPT OFFSET + 1] + 
sizeof(struct in addr)), 
(caddr t) & cp[IPOPT OFFSET + 1], 
(unsigned) cnt + sizeof(struct in addr)); 
break; 


) 

if (m-»m len > MAX IPOPTLEN + sizeof(í(struct in addr)) 
goto bad; 

*pcbopt = m; 

return (0); 


bad: 


(void) m free(m); 
return (EINVAL); 


ip output.c 
图 9-32 (£x) 
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559-562 第 一 个 参数 ，pcbopt 引 用 指向 当前 选项 表 的 指针 。 然 后 该 函数 用 一 个 指向 新 的 
选项 表 的 指针 来 代替 该 指针 ， 这 个 新 选项 表 是 由 第 二 个 参数 m 指 向 的 缓存 链 所 指定 的 选项 构造 
而 来 。 该 过 程 所 准备 的 选项 表 ， 将 被 包含 在 IP_OPTIONS 揪 口 选 项 中 ， 除 了 LSRR 和 SSRR 选 
项 的 格式 外 ， 看 起 来 像 一 个 标准 的 了 了 选项 表 。 对 这 些 选 项 ， 第 一 跳 目 的 地 址 是 作为 路 由 的 第 
一 个 地 址 出 现 的 。 图 9-14 显 示 ， 在 外 出 的 分 组 中 ， 第 一 跳 目 的 地 址 是 作为 目的 地 址 出 现 的 ， 
而 不 是 路 由 的 第 一 个 地 址 。 

1. 扔 掉 以 前 的 选项 
563-580 所 有 被 m_free 和 *pcbopt 扔 掉 的 选项 都 被 清除 。 如 果 该 过 程 传 来 一 个 空 缓存 或 
者 根本 不 传递 缓存 ， 则 该 函数 不 安装 任何 新 的 选项 ， 并 立即 返回 。 

如 采 新 选项 表 没 有 填充 到 4 bit 的 边界 ， 则 ip_pcbopts 跳 到 bad， 扔 掉 该 表 ， 并 返回 
EINVAL, 

该 函数 的 其 余部 分 重新 安排 访 表 ， 使 其 看 起 来 像 一 个 jpoption 结 构 。 图 9-33 显 示 了 这 个 


松 源 路 由 





图 9-33 ip_pcbopts 选 项 表 处 理 


2. 为 第 一 跳 目 的 地 腾 出 位 置 
581-592 如 采 缓 存 中 没有 位 置 ， 则 把 所 有 的 数据 都 向 缓存 的 末尾 移动 4 个 字 节 (是 一 个 
in_addr 结 构 的 大 小 )。ovbcopy 完 成 复制 。bzero 清 除 缓存 开始 的 4 个 字 节 。 

3. 扫描 选项 表 
593-606 ”for 循环 扫 拉 选项 表 ， 寻 找 LSRR 和 SSRR 选 项 。 对 多 字 节 选项 ， 该 循环 也 验证 选 
项 的 长 度 是 否 合理 。 

4. 重新 安排 LSRR 和 SSRR 选 项 
607-638 当 该 循环 找到 一 个 LSRR 或 SSRR 选 项 时 ， 它 把 缓存 的 大 小 、 循 环 变量 和 选项 长 度 
减 去 4， 因 为 选项 的 每 一 个 地 址 将 被 移 走 ， 并 被 移 到 缓存 的 前 面 。 

bcopy 把 第 一 个 地 址 移 走 ，ovbcopy 把 选项 的 其 他 部 分 移动 4 个 字 节 ， 来 填补 第 一 个 地 
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址 留 下 的 空隙 。 

S. 清除 
639-646 循环 结束 后 ， 选 项 表 的 大 小 (包括 第 一 跳 地 址 ) 必 须 不 超过 44 (MAX_IPOPTLEN +4) 字 
方 。 更 长 的 选项 表 无 法 放 入 IP 分 组 的 首部 。 该 表 被 保存 在 *pcbopt 中 ， 函 数 返 回 。 


9.10 一 些 限 制 


除了 管理 和 诊断 工具 生成 的 IP 数 据 报 外 ， 很 少 出 现 选项 。 卷 1 讨论 了 两 个 最 常用 的 工具 ， 
ping 和 traceroute。 使 用 IP 选 项 的 应 用 程序 很 难 写 。 编 程 接 口 的 文档 很 少 ， 也 没有 很 好 地 
标准 化 。 许 多 厂商 提供 的 应 用 程序 ， 比 如 Telnet 和 FTP， 并 没有 为 用 户 提 供 方法 ， 来 指定 如 源 
路 由 等 的 选项 。 

在 大 的 互联 网 上 ， 记 录 路 由 、 时 间 惟 和 源 路 由 选项 的 用 途 被 IP 首 部 的 最 大 长 度 所 限制 。 
许多 路 由 含有 的 跳 数 远 多 于 40 选 项 字 节 所 能 表示 的 。 当 多 选项 在 同一 分 组 中 出 现时 ， 所 能 得 
到 的 空间 是 几乎 没有 用 的 。IPv6 用 一 个 更 为 灵活 的 选项 首部 设计 强调 了 这 个 问题 。 

在 分 片 过 程 中 ，IP 只 把 某 些 选 项 复制 到 非 初 始 片 上 ， 因 为 重组 时 会 扔 掉 非 初始 片上 的 选 
项 。 在 目的 主机 上 ， 运 输 层 协 议 只 能 用 到 初始 片上 的 选项 (10.6 节 )。 但 有 些 选项 ， 如 源 路 由 ， 
即使 在 目的 主机 上 ， 被 非 初 始 片 丢弃 ,依然 必须 被 复制 到 每 个 分 片 。 


9.11 ME 


本 章 中 我 们 显示 了 IP 选 项 的 格式 和 处 理 过 程 。 我 们 没有 讨论 安全 和 流 ID 选 项 ， 因 为 Net/3 
没有 实现 它们 。 

我 们 看 到 ， 多 字 市 选项 的 大 小 是 由 源 主机 在 构造 它们 时 确定 的 。 最 大 选项 首部 长 度 只 有 
40 字 节 ， 这 严格 限制 了 IP 选 项 的 使 用 。 

源 路 由 选项 要 求 最 多 的 支持 。 到 达 的 源 路 由 被 save_rte 保 存 ， 并 保留 在 ip_srcroute 
中 。 通 沼 不 转发 分 组 的 主机 可 能 转发 源 路 由 选择 的 分 组 ， 但 是 RFC 1122 上 默认 要 求 不 允许 这 种 
功能 。Net/3 没 有 对 这 种 特性 的 判断 ， 总 是 转发 源 路 由 选择 的 分 组 。 

最 后 ， 我 们 看 到 ip_insertoptions 是 如 何 把 选项 插入 到 一 个 外 出 的 分 组 中 去 的 。 


习题 


9.1 如 果 一 个 分 组 中 有 两 个 不 同 的 源 路 由 选项 会 发 生 什么 情况 ? 

9.2 一 些 商 用 路 由 器 可 以 被 配置 成 按照 分 组 的 IP 目 的 地 址 扔 掉 它 们 。 通 过 种 方式 ， 可 以 
把 一 台 或 一 组 主机 通过 路 由 器 隔离 在 更 大 的 互联 网 之 外 。 请 描述 源 路 由 选择 的 分 组 
如 何 绕 过 这 个 机 制 。 假 定 网 络 中 至 少 有 一 个 主机 ， 路 由 器 没有 阻塞 ， 并 转发 源 路 由 
选择 的 数据 报 。 

9.3 某 些 主机 可 能 没有 被 配置 成 默认 路 由 。 这 样 主机 就 无 法 路 由 选择 到 其 他 与 它 直接 相 
连 的 网 络 。 请 描述 源 路 由 如 何 与 这 种 类 型 的 主机 通信 。 

9.4 为 什么 NOP 采 用 如 图 9-16 所 示 的 ip_srczt 结 构 ? 

9.5 时 间 惟 选项 中 非 标准 时 间 值 会 和 标准 时 间 值 混淆 吗 ? 

9.6 ip_dooptions 在 处 理 其 他 选项 之 前 要 把 分 组 的 目的 地 址 保存 在 dest 中 (图 9-8)。 
为 什么 ? 


H10% |IP 的 分 片 与 重 装 


10.1 引言 


我 们 将 第 8 章 的 IP 的 分 片 与 重 装 处 理 问题 推迟 到 本 章 来 讨论 。 

IP 具 有 一 种 重要 功能 ， 就 是 当 分 组 过 大 而 不 适合 在 所 选 硬 件 接口 上 发 送 时 ， 能 够 对 分 组 
进行 分 片 。 过 大 的 分 组 被 分 成 两 个 或 多 个 大 小 适合 在 所 选 定 网 络 上 发 送 的 IP 分 片 。 而 在 去 目 
的 主机 的 路 途中 ， 分 片 还 可 能 被 中 间 的 路 由 器 继续 分 片 。 因 此 ， 在 目的 主机 上 ， 一 个 IP 数 据 
报 可 能 放 在 一 个 卫 分 组 内 ， 或 者 ， 如 果 在 发 送 时 被 分 片 ， 就 放 在 多 个 IP 分 组 内 。 因 为 各 个 分 
片 可 能 以 不 同 的 路 径 到 达 目 的 主机 ， 所 以 只 有 目的 主机 才 有 机 会 看 到 所 有 分 片 。 因 此 ， 也 只 
有 目的 主机 才能 把 所 有 分 片 重 装 成 一 个 完整 的 数据 报 ， 提 交 给 合适 的 运输 层 协 议 。 

图 8-5 显 示 在 被 接收 的 分 组 中 ，0.3%(72 786/27 881 978) 是 分 片 ，0.12% (264 484/ 
(29 447 726—796 084)) 的 数据 报 是 被 分 片 后 发 送 的 。 在 world .std.com 上 ， 被 接收 分 组 的 
9.5% 是 被 分 片 的 。world 有 更 多 的 NFS 活 动 ， 这 是 IP 分 片 的 主要 来 源 。 

IP 首 部 内 有 三 个 字段 实现 分 片 和 重 装 : 标识 字段 (ip_iq)、 标 志 字 上段 (ip_off 的 3 个 高 位 
比特 ) 和 偏 移 字 段 (ip_off 的 13 个 低位 比特 )。 标 志 字段 由 三 个 1 bit 标 志 组 成 。 比 特 0 是 保留 的 ， 
必须 为 0， 比 特 1 是 “不 分 片 ”(DF) 标 志 ; 比特 2 是 “更 多 分 片 ”(MF) 标 志 。Net/3 中 ， 标 志和 
偏 移 字段 结合 起 来 ， 由 ip_off 访 问 ， 如 图 10-1 所 示 。 


Dol] 13 比 特 
图 10-1 ip_off 控 制 IP 分 组 的 分 片 


Net/3 通 过 用 IP_DF 和 IP_MF 掩 去 ip_off 来 访问 DF 和 MF。IP 实 现 必须 允许 应 用 程序 请 求 
在 输出 的 数据 报 中 设置 DF 比特 。 
当 使 用 UDP 或 TCP 时 ，Net/3 并 不 提供 对 DF 比特 的 应 用 程序 级 的 控制 。 
进程 可 以 用 原始 IP 接 口 (第 32 章 ) 构 造 和 发 送 它 自己 的 IP 首 部 。 运 输 层 必须 直接 设 
置 DF 比 特 。 例 如 ， 当 TCP 运 行 “路 径 MTU 发 现 (path MTU discovery)" i}, 


ip_off 的 其 他 13 比 特 指 出 在 原始 数据 报 内 分 片 的 位 置 ， 以 8 字 市 为 单元 计算 。 因 而 ， 除 
最 后 一 个 分 片 外 ， 其 他 每 个 分 片 都 希望 是 一 个 8 字 市 倍数 的 数据 ， 从 而 使 后 面 的 分 片 从 8 字 市 
边界 开始 。 图 10-2 显 示 了 在 原始 数据 报 内 的 字 刷 偶 移 关系 ， 以 及 在 分 片 的 IP 首 部 内 分 片 的 偶 
移 (ip_off 的 低位 13 比 特 )。 

图 10-2 显 示 了 把 一 个 最 大 的 卫 了 数据 报 分 成 8190 个 分 片 ， 除 最 后 一 个 分 片 包含 3 个 字 贡 外 ， 
其 他 每 个 分 片 都 包含 8 字 节 。 图 中 还 显示 ， 除 最 后 一 个 分 片 外 ， 设 置 了 其 余 分 片 的 ME 比特 。 
这 是 一 个 不 太 理想 的 例子 ， 但 它 说 明了 一 些 实现 中 存在 的 问题 。 
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as 


15 16 23 wrp 65511 iii 
ET mo i 8r 
zx 
IP 首 部 
ip off=0 MF-1 | | 


20 字 节 


一 
> 
IP 首 部 
ER 


20 字 节 。 8 字 节 


IP 首 
ip offz dd MF-1 


20 字 节 


ip. o£f-8189 MF-0 3 


20 字 布 


图 10-2 65 535 字 节 的 数据 报 的 分 片 


原始 数据 报 上 面 的 数字 是 该 数据 部 分 在 数据 报 内 的 字 市 偏 移 。 分 片 偏 移 (ip_off) 是 从 数 
据 报 的 数据 部 分 开始 计算 的 。 分 片 不 可 能 含有 偏 移 超过 65 514 的 字 市 ， 因 为 如 果 这 样 的 话 ， 重 
装 的 数据 报 会 大 于 65 535 字 市 一 一 这 是 ijp_len 字 段 的 最 大 值 。 这 就 限制 了 ip_off 的 最 大 值 为 
8189(8189 x 8=65 512)， 只 为 最 后 一 个 分 片 留 下 3 字 市 空间 。 如 果 有 了 P 选 项 ， 则 偏 移 还 要 小 些 。 

因为 I1P 互 联网 是 无 连接 的 ， 所 以 ， 在 目的 主机 上 ， 来 自 一 个 数据 报 的 分 片 必然 会 与 来 自 
其 他 数据 报 的 分 片 交 错 。ip_id 了 唯一 地 标识 某 个 特定 数据 报 的 分 片 。 源 系统 用 相同 的 源 地 址 
(ip_src)、 目 的 地 址 (ip_dst) 和 协议 (ijp_p) 值 ， 作 为 数据 报 在 互联 网 上 生命 期 的 值 ， 把 每 
个 数据 报 的 jp_id 设 置 成 一 个 唯一 的 值 。 

总 而 言 之 , ip_id 标 识 了 特定 数据 报 的 分 片 , ip_off 确 定 了 分 片 在 原始 数据 报 内 的 位 置 ， 
除 最 后 一 个 分 片 外 ，ME 标 识 每 个 分 片 。 


10.2 代码 介绍 


重 装 数 据 结构 出 现在 一 个 头 文件 里 。 两 个 C 文 件 中 有 重 装 和 分 片 处 理 的 代码 。 这 三 个 文件 
列 在 图 10-3 中 。 


fü x^ 
netinet/ip var.h 重 装 数 据 结构 


netinet/ip output .c 分 片 代码 
netinet/ip input.c 重 装 代码 


图 10-3 本 章 讨论 的 文件 
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10.2.1 全 局 变量 
本 章 中 只 有 一 个 全 局 变量 ，ijpq。 如 图 10-4 所 示 。 


图 10-4 ”本章 介绍 的 全 局 变量 





10.2.2 统计 量 


分 片 和 重 装 代码 修改 的 统计 量 如 图 10-5 所 示 。 它 们 是 图 8-4 的 ijpstat 结 构 中 所 包含 统计 
量 的 子 集 。 


ipstat 成 员 
ips cantfrag | 要 求 分 片 但 被 DF 比 特 禁止 而 没有 发 送 的 数据 报 数 


ips odropped 因为 内 存 不 够 而 被 丢弃 的 分 组 数 
ips_ofragments | 被 发 送 的 分 片 数 
ips fragmented | 为 输出 分 片 的 分 组 数 


图 10-5 本 章 收 集 的 统计 量 





10.3 43H 


我 们 现在 返回 到 ip_output ， 分 析 分 片 代 码 。 记 得 在 图 8-25 中 ， 如 条 分 组 正好 适合 选 定 
出 接口 的 MTU ， 就 在 一 个 链 路 级 帧 中 发 送 它 。 否 则 ， 必 须 对 分 组 分 片 ， 并 在 多 个 帧 中 将 其 发 
送 。 分 组 可 以 是 一 个 完整 的 数据 报 或 者 它 上 自己 也 是 前 边 系统 创建 的 分 片 。 我 们 分 三 个 部 分 讨 


论 分 片 代码 : 
。 确 定 分 片 大 小 (图 10-6); 
。 构 造 分 片 表 ( 图 10-7); 
。 构 造 第 一 个 分 片 并 发 送 分 片 (图 10-8)。 
25 7 ip output.c 
254 * Too large for interface; fragment if possible. 
255 * Must be able to put at least 8 bytes per fragment. 
256 t i 
257 if (ip-»ip off & IP DF) ( 
258 error - EMSGSIZE; 
259 ipstat.ips cantfrag--*; 
260 goto bad; 
261 ) 
262 len = (ifp-»if mtu - hlen) & ^7; 
263 if (len « 8) ( 
264 error - EMSGSIZE; 
265 goto bad; 
266 ) : 
ip output.c 





图 10-6 Krip output: 确定 分 片 大 小 
253-261 分 片 算法 很 简单 ， 但 由 于 对 mbuf 结 构 和 链 的 操作 使 实现 非常 复杂 。 如 果 DF 比 特 禁 
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止 分 片 ， 则 ip_output 丢 弃 该 分 组 ， 并 返回 EMSGSIZE。 如 果 该 数据 报 是 在 本 地 生成 的 ， 则 
运输 层 协议 把 该 错误 传 回 该 进程 ， 但 如 果 分 组 是 被 转发 的 ， 则 ip_forwazrd 生 成 一 个 ICMP 目 
的 地 不 可 达 差 错 报 文 ， 并 指出 不 分 片 就 无 法 转发 该 分 组 (图 8-21)。 

Net/3 没 有 实现 “路 径 MTU 发 现 ” 算 法 ， 该 算法 用 来 搜索 到 目的 主机 的 路 径 ， 并 发 现 所 有 
中 间 网 络 支持 的 最 大 传送 单元 。 卷 1 的 11.8 节 和 24.2 节 讨论 了 UDP 和 TCP 的 路 从 MTU 发 现 。 
262-266 ”每 个 分 片 中 的 数据 字 节 数 ，len 的 计算 是 用 接口 的 MTU 减 去 分 组 首部 的 长 度 后 ， 
舍 去 低位 的 3 比特 (& ~7)。 后 成 为 8 字 节 倍数 。 如 果 MTU 太 小 ， 使 每 个 分 片 中 无 法 含有 8 字 古 的 
数据 ， 则 ip _ output 返 回 EMSGSIZE。 

每 个 新 的 分 片 中 都 包含 : 一 个 IP 首 部 、 某 些 原始 分 组 中 的 选项 以 及 最 多 Len 长 度 的 数据 。 

图 10-7 中 的 代码 ， 以 一 个 C 的 复合 语句 开始 ， 构 造 了 从 第 2 个 分 片 开始 的 分 片 表 。 在 表 生 
成 后 (图 10-8)， 原 来 的 分 组 被 转换 成 第 一 个 分 片 。 


m ip output.c 
268 int mhlen, firstlen - len; 

269 struct mbuf **mnext - &m-»m nextpkt; 

270 E" 

274 * Loop through length of segment after first fragment, 

272 * make new header and copy data of each part and link onto chain. 
273 vi 

274 m0 = m; 

275 mhlen = sizeof(struct ip); 

276 for (off = hlen + len; off < (u short) ip-»ip len; off += len) ( 
2177 MGETHDR(m, M DONTWAIT, MT HEADER); 

278 SE Ux wx 0] í 

279 error - ENOBUFS; 

280 ipstat.ips. odropped-«-*; 

281 goto sendorfree; 

282 ) 

283 m-»m data += max linkhdàr; 

284 mhip - mtod(m, struct ip *); 

285 *mhip - *ip; 

286 if (hlen » sizeof(struct ip)) ( 

287 mhlen = ip optcopy(ip, mhip) + sizeof(struct ip); 

288 mhip-»ip hl = mhlen >> 2; 

289 ) 

290 m-»m len - mhlen; 

291 mhip-»ip off = ((off - hlen) >> 3) + (ip-»ip off & "IP MF); 
292 if (ip-»ip off & IP MF) 

293 mhip-»ip off |= IP MF; 

294 if (off + len »- (u short) ip-»ip len) 

295 len = (u short) ip-»ip len - off; 

296 else 

297 mhip-»ip off |= IP MF; 

298 mhip-»ip len = htons((u short) (len + mhlen)); 

299 m-»m next = m copy(m0, off, len); 

300 if (m-»m next == 0) { 

301 (void) m free (m); 

302 error - ENOBUFS; y* ??? *J 

303 ipstat.ips odropped-«-; 

304 goto sendorfree; 

305 ) 

306 m-»m pkthdr.len = mhlen + len; 


图 10-7 Hilip output: 构造 分 片 表 
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307 m-»m pkthdr.rcvif - (struct ifnet *) 0; 
308 mhip-»ip off = htons((u short) mhip-»ip. off); 
309 mhip-»ip sum = 0; 
310 mhip-»ip. sum = in cksum(m, mhlen); 
311 *mnext - m; 
SLA mnext = &m->m_nextpkt; 
313 ipstat.ips_ofragments++; 
314 } 
ip_output.c 
图 10-7 (£x) 
eum 7» ip output.c 
316 * Update first fragment by trimming what's been copied out 
217 * and updating header, then send each fragment (in order). 
318 »J 
319 m - m0; 
320 m adj(m, hlen + firstlen - (u short) ip-»ip. len); 
321 m-»m pkthdr.len = hlen + firstlen; 
322 ip->ip_len = htons((u short) m->m_pkthdr.len); 
323 ip-»ip off = htons((u short) (ip-»ip off | IP MF)); 
324 ip-»ip sum = 0; 
325 ip-»ip sum - in cksum(m, hlen); 
326 sendorfree: 
327 tor (m = m0; i; m = mo) 4 
328 m0 = m-»m nextpkt; 
329 m-»m nextpkt - 0; 
330 if (error == 0) 
331 error - (*ifp-»if output) (ifp, m, 
332 (struct sockaddr *) dst, ro-»ro rt); 
433 else 
334 m freem(m); 
335 ) 
336 if (error == 0) 
337 ipstat.ips fragmented-4-; 
338 ) à 
ip output.c 


图 10-8 Kýrip_output: 发 送 分 片 


267-269 外 部 块 允 许 在 国 数 中 离 使 用 点 更 近 一 点 的 地 方 定义 mhlen、firstlen 和 mnext。 
这 些 变量 的 范围 一 直到 块 的 末尾 ， 它 们 隐藏 其 他 在 块 外 定义 的 有 相同 名 字 的 变量 。 
270-276 因为 原来 的 缓存 链 现 在 成 了 第 一 个 分 片 ， 所 以 fo 循环 从 第 2 个 分 片 的 偏 移 开始 
hlen+len。 对 每 个 分 片 ，ip_output 采 取 以 下 动作 : 
*277-284 分 配 一 个 新 的 分 组 缓存 ， 调 整 m_data 指 针 ， 为 一 个 16 字 市 链 路 层 首部 
(max_1inkhdr) 腾 出 空间 。 如 果 ip_output 不 这 么 做 ， 则 网 络 接口 驱动 器 就 必须 再 分 
配 一 个 mbuf 来 存放 链 路 层 首 部 或 移动 数据 。 两 种 工作 都 很 耗 时 ， 在 这 里 就 很 容易 避免 。 
*285-290 从 原来 的 分 组 中 把 了 了 首部 和 IP 选 项 复制 到 新 的 分 组 中 。 前 者 复制 在 一 个 结构 
中 。ip_optcopy 只 复制 那些 将 被 复制 到 每 个 分 片 中 的 选项 (10.4 市 )。 
*291-297 设置 分 片 包 括 MF 比 特 的 偏 移 字段 (ip_off)。 如 果 原 来 分 组 中 已 设置 了 MF 
比特 ， 则 在 所 有 分 片 中 都 把 MF 置 位 。 如 果 原 来 分 组 中 没有 设置 MF 比特 ， 则 除了 最 后 一 
个 分 片 外 ， 其 他 所 有 分 片 中 的 ME 都 置 位 。 
。298 为 分 片 设 置 长 度 ， 解 决 首 部 小 一 些 (ip_optcopy 可 能 没有 复制 所 有 选项 )， 以 及 
最 后 一 个 分 片 的 数据 区 小 一 些 的 问题 。 以 网 络 字 节 序 存储 长 度 。 
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。299-305 从 原始 分 组 中 把 数据 复制 到 该 分 片 中 。 如 果 必 要 ，m_copy 会 再 分 配 一 个 
mbuf。 如 果 m_copy 失 败 , . 则 发 出 ENOBUFS。sendorfree 技 弃 所 有 已 被 分 配 的 缓存 。 
。306-314 调整 新 创建 的 分 片 的 mbuf 分 组 首部 ， 使 其 具有 正确 的 全 长 。 把 新 分 片 的 接 
口 指针 清 零 ， 把 ip_off 转 换 成 网 络 字 市 序 ， 计 算 新 分 片 的 检验 和 。 通 过 m_nextpkt 
把 该 分 片 与 前 面 的 分 片 链 接 起 来 。 
在 图 10-8 中 ，ip_output 构 造 了 第 一 个 分 片 ， 并 把 每 个 分 片 传 递 到 接口 层 。 
315-325 把 末尾 多 余 的 数据 截断 后 ,， 原来 的 分 组 就 被 转换 成 第 一 个 分 片 ， 同时 设置 MF 比特 ， 
把 ijp_len 和 ip_off 转 换 成 网 络 字 节 序 ， 计 算 新 的 检验 和 。 在 这 个 分 片 中 ,保留 所 有 的 IP 选 
项 。 在 目的 主机 重 装 时 ， 只 保留 数据 报 的 第 一 个 分 片 的 IP 选 项 (图 10-28)。 某 些 选 项 ， 如 源 路 
由 选项 ， 必 须 被 复制 到 每 个 分 片 中 ， 即 使 在 重 装 时 都 被 丢弃 了 。 
326-338 此 时 ，ip_output 可 能 有 一 个 完整 的 分 片 表 ， 或 者 已 经 产生 了 错误 ， 都 必须 把 生 
成 的 那 部 分 分 片 表 丢弃 。for 人 循环 遍历 该 表 ， 发 送 分 片 或 者 由 于 error 而 丢弃 分 片 。 在 发 送 
期 间 遇 到 的 所 有 错误 都 会 使 后 面 的 分 片 锌 丢弃 。 


10.4 ip optcopy A% 


在 分 片 过 程 中 ，ip_optcopy( 图 10-9) 复 制 到 达 分 组 (如 果 分 组 是 被 转发 的 ) 或 者 原始 数据 
报 中 (如 果 该 数据 报 是 在 本 地 生成 的 ) 中 的 选项 到 外 出 的 分 片 中 。 





ERU ip output.c 

396 ip optcopy(ip, jp) 

397 struct ip *ip, *1p; 

398 ( 

399 u char *cp, *dp; 

400 int opt, optlen, cnt; 

401 CD = (u.cnar *) (ip + 195: 

402 dp = (u,.char *) (jp + 1); 

403 cnt = (ip-»ip hl «« 2) = sizeof(struct ip); 

404 for (; cnt > 0; cnt -= optlen, cp += optlen) ( 

405 opt - cp[0]; 

406 if (opt -- IPOPT EOL) 

407 break; 

408 if (opt == IPOPT NOP) { 

409 /* Preserve for IP mcast tunnel's LSRR alignment. */ 

410 *dp++ = IPOPT NOP; 

411 optlen = 1; 

412 continue; 

413 ) else 

414 optlen - cp[IPOPT OLEN]; 

415 /* bogus lengths should have been caught by ip dooptions */ 

416 if (optlen » cnt) 

417 optlen = cnt; 

418 if (IPOPT COPIED(opt)) ( 

419 bcopy((caddr t) cp, (caddr t) dp, (unsigned) optlen); 

420 dp += optlen; 

421 ) 

422 ) 

423 for (optlen = dp - (u char *) (jp + 1); optlen & 0x3; optlen-«-) 

424 *dp++ = IPOPT EOL; 

425 return (optlen); 

426 ) : 
ip output.c 


图 10-9 函数 : 确定 分 片 大 小 
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395-422 ip_optcopy 的 参数 是 : ip, —/rdíRIRIPPIHZHBRJIPE SBHUJTREES je. —"T ín] 
新 生成 的 分 片 的 IP 首 部 的 指针 ，ip_optcopy 初 始 化 cp 和 dp 指向 每 个 分 组 的 第 一 个 选项 ， 并 
在 处 理 每 个 选项 时 把 cp 和 dp 同 前 移动 。 第 一 个 for 循 环 在 每 次 重复 时 复制 一 个 选项 ， 当 它 遇 
到 EOL 选 项 或 已 经 检查 完 所 有 选项 时 。NOP 选 项 被 复制 ， 用 来 维持 后 继 选 项 的 对 齐 限制 。 

Net/2 版 本 废除 了 NOP 选 项 。 

如 果 IPOPT_COPIED 指 示 copied 比 特 被 置 位 ， 则 ip_optcopy 把 选项 复制 到 新 片 中 。 图 

9-5 显 示 了 哪些 选项 的 copied 比 特 是 被 置 位 的 。 如 果菜 个 选项 的 长 度 太 大 ， 就 被 截断 ， 
ip_dooptions 应 该 已 经 发 现 这 种 错误 了 。 
423-426 第 2 个 for 循 坏 把 选项 表 填 充 到 4 字 证 的 边界 。 由 于 分 组 首部 长 度 (ip_hlen) 是 以 4 
字 市 为 单位 计算 的 ， 所 以 需要 这 个 操作 。 这 也 保证 了 后 面 跟着 的 运输 层 首部 与 4 字 市 边界 对 齐 。 
这 样 会 提高 性 能 ， 因 为 在 许多 运输 层 协议 的 设计 中 ， 如 果 运 输 层 首部 从 一 个 32 bit 边 界 开始 ， 
那么 32 bit 首 部 字段 将 按照 32 bit 边 界 对 齐 。 在 某 些 机 器 上 ，CPU 访 问 32 bit 对 齐 的 字 有 困难 ， 
这 时 ， 这 种 字 区 安排 就 提高 了 CPU 的 性 能 。 

图 10-10 显 示 了 ip_optcopy 的 运行 。 


20 字 证 123275 pei 11 字 市 
IP 首 部 LSRR3X Jjji I 表 尾 选项 
20 字 节 ih Ee 


图 10-10 在 分 片 中 并 不 复制 所 有 选项 


在 图 10-10 中 ， 我 们 看 到 ip_optcopy 不 复制 时 间 堆 选项 ( 它 的 copied 比 特 为 0)， 但 却 复制 
LSRR 选 项 ( 它 的 copied 比 特 为 1)。 为 了 把 新 选项 与 4 字 区 边界 对 齐 ，ip_optcopy 也 增加 了 一 
个 EOL 选 项 。 


10.5 EX 


到 目前 为 止 ， 我 们 已 经 讨论 了 数据 报 (或 片 ) 的 分 片 ， 现 在 再 回 到 ipintzr 讨 论 重 装 过 程 。 
在 图 8-15 中 ， 我 们 把 ipintz 中 的 重 装 代码 省 略 了 ， 并 推迟 对 它 的 讨论 。ipintz 可 以 把 数据 
报 整个 地 交 给 运输 层 处 理 。ipintr 接 收 的 分 片 被 传 给 ijp_reass， 由 它 尝 试 把 分 片 重 装 成 一 
个 完整 的 数据 报 。 图 10-11 显 示 了 ipintr 的 代码 。 

271-279 我们 知道 jp_off 包 仿 DF 比 特 、MF 比 特 以 及 分 片 偏 移 。 如 果 MF 比 特 或 分 片 偏 移 
非 零 ， 则 DEF 就 被 掩盖 掉 了 ， 分 组 就 是 一 个 必须 被 重 装 的 分 片 。 如 果 两 者 都 为 零 ， 则 分 组 就 是 
一 个 完整 的 数据 报 。 跳 过 重 装 代码 ， 执 行 图 10-11 中 最 后 的 else 语 句 ， 它 从 全 部 数据 报 长 度 
中 排除 了 首部 长 度 。 

280-286 m_pullup 把 位 于 外 部 徐 上 的 数据 移动 到 mbuf 的 数据 区 。 我 们 记得 ， 如 果 一 个 缓 
存 区 无 法 容纳 外 部 入 上 的 一 个 I1P 分 组 ， 则 SLIP 接 口 (5.3 布 ) 可 能 会 把 该 分 组 整个 返回 。 
m_devget 也 会 全 部 返回 外 部 徐 上 的 茶 个 IP 分 组 (2.6 市 )。 在 mtod 宏 (2.6 布 ) 开 始 工作 之 前 ， 
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m_pullup 必 须 把 IP 首 部 从 外 部 徐 上 移 到 mbuf 的 数据 区 中 去 。 





271 
272 
273 
274 
215 
276 
277 
278 
279 
280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 
296 
297 
298 


299 
300 
301 
302 
303 
304 
305 
306 
307 
308 


309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 


323 
324 


ours: 
/* 
* If offset or IP MF are set, must reassemble. 
* Otherwise, nothing need be done. 
* (We could look in the reassembly queue to see 
* if the packet was previously fragmented, 
* but it's not worth the time; just let them time out.) 
x i 
if (ip-»ip off & "IP DF) ( 
if (m-»m flags & M EXT) { /* XXX */ 


if ((m = m pullup(m, sizeof(struct ip))) == 0) ( 
ipstat.ips toosmall-«-«; 
goto next; 
) 
. dp s mtod(m, struct ip *); 
) 
/* 


* Look for queue of fragments 

* of this datagram. 

vy 

for (fp = ipq.next; fp !- &ipq; fp = fp-»next) 

if (ip-»ip id == fp-»ipq id && 

ip-»ip src.s  addr == fp-»ipq src.s addr && 
ip-»ip dst.s, addr == fp-»ipq dst.s addr && 
ip-»ip.p -- fp-»ipq p) 
goto found; 


found: 


/* 
* Adjust ip len to not reflect header, 
* set ip mff if more fragments are expected, 
* convert offset of this to bytes. 
a i 
ip-»ip len -= hlen; 
((struct ipasfrag *) ip)-»ipf mff &- ^1; 
if (ip-»ip off & IP MF) 
( (struct ipasfrag *) ip)-»ipf mff |= 1; 
lp-»ip off <<= 3; 


/* 
* If datagram marked as having more fragments 
* or if this is not the first fragment, 
* attempt reassembly; if it succeeds, proceed. 
ai 4 
if (((struct ipasfrag *) ip)-»ipf mif & 1 |l ip-»ip off) 
ipstat.ips fragments-4-; 
ip = ip reass((struct ipasfrag *) ip, fp); 
if (ip == 0) 
goto next; 
ipstat.ips reassembled--; 
m = dtom(ip); 
) else if (fp) 
ip freef(fp); 
) else 
ip-»ip len -- hlen; 


图 10-11 函数 ijpintr: 分 片 处 理 


ip_input.c 


{ 


ip_input.c 
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287-297 Net/3 在 一 个 全 局 双向 链表 ipq 上 记录 不 完整 的 数据 报 。 这 个 名 字 可 能 容易 产生 误 
解 ， 因 为 这 个 数据 结构 并 不 是 一 个 队列 。 也 就 是 说 ， 可 以 在 表 的 任何 地 方 插 入 和 删除 ， 并 不 
限制 一 定 要 在 末尾 。 我 们 将 用 名 词 “ 表 (list)” 来 强调 这 个 事实 。 

ipintr 对 表 进 行 线性 搜索 ， 为 当前 分 片 找 到 合适 的 数据 报 。 记 住 分 片 是 由 4 元 组 
{ip_id,ip_src,ip_dst,ip_p} 唯 一 标识 的 。ipq 中 的 每 项 是 一 个 分 片 表 ， 如 果 ipintr 
找到 一 个 匹配 ， 则 fp 指向 匹配 的 表 。 


Net/3 采 用 线性 搜索 来 访问 它 的 许多 数据 结构 。 尽 管 简单 ， 但 是 当主 机 支持 大 量 

网 络 连接 时 ， 这 种 方法 就 成 为 瓶颈 。 

298-303 在 foundi 语 句 ，ipintr 为 方便 重 装 ， 修 改 了 分 组 : 

*304 ipintr 修 改 ip_len， 从 中 减 去 标准 IP 首 部 和 任何 选项 。 我 们 必须 牢记 这 一 点 ， 
以 免 混 清 对 标准 ip_1en 解 释 的 理解 。 标 准 ip_1len 中 包含 了 标准 首部 、 选 项 和 数据 。 
如 果 跳 过 重 装 代 码 ，ip_1en 也 会 被 改变 ， 因 为 这 个 分 组 不 是 一 个 分 片 。 

*305-307 ipintr 把 MF 标志 复制 到 ijpf mtff 的 低位 ， 把 ip tos 和 覆盖 掉 (&= “1 只 清 
除 低位 )。 注 意 ， 在 ipf_mff 成 为 一 个 有 效 成 员 之 前 ， 必 须 把 ip 指 一 个 ipasfrag 结 构 。 
10.6 节 和 图 10-14 摘 述 了 ipasfzrag 结 构 。 

尽管 RFC 1122 要 求 IP 层 提供 某 种 机 制 ， 允 许 运输 层 为 每 个 外 出 的 数据 报 设置 
ip_tos 比 特 。 但 它 只 推荐 ,在 目的 主机 ，IP 层 把 ip_ tos 值 传 给 运输 层 。 因 为 TOS 
字段 的 低位 字 节 必须 总 是 0， 所 以 当 重 装 算法 使 用 ip_off( 通 常 在 这 里 找到 MF 比特 ) 

时 ， 可 以 得 到 MF 比特 。 


现在 ， 可 以 把 ip_off 作 为 一 个 16 bit 偏 移 ， 而 不 是 3 个 标志 比特 和 一 个 13 bit 偏 移 来 访 
IR] T. 

*308 用 8 乘 1ip_off， 把 它 从 以 8 字 节 为 单元 转换 成 以 1 字 节 为 单元 。 

ipf _mff 和 :ip_off 决 定 ipintz 是 否 应 该 重 装 。 图 10-12 摘 述 了 不 同 的 情况 及 相应 的 动 
作 ， 其 中 fp 指向 的 是 系统 以 前 为 该 数据 报 接 收 的 分 片 表 。 许 多 工作 是 由 ip_reass 做 的 。 
309-322 如 果 ip_reass 通 过 把 当前 分 片 与 以 前 收 到 的 分 片 组 合 在 一 起 ， 能 重 装 成 一 个 完 
整 的 数据 报 ， 它 就 返回 指向 该 重 装 好 的 数据 报 的 指针 。 如 果 没 有 重 装 好 ， 则 ip_reass 保 存 
该 分 片 ，ipintr 跳 到 next 去 处 理 下 一 个 分 片 (图 8-12)。 


完整 数据 报 没有 要 求 重 装 0000000 
完整 数据 报 丢弃 前 面 的 分 片 


新 数据 报 的 分 片 用 这 个 分 片 初 始 化 新 的 分 片 表 

不 完整 新 数据 报 的 分 片 插入 到 已 有 的 分 片 表 中 ， 尝 试 重 装 
新 数据 报 的 末尾 分 片 初始 化 新 的 分 片 表 

不 完整 新 数据 报 的 末尾 分 片 | 插入 到 已 有 的 分 片 表 中 ， 尝 试 重 装 





图 10-12 ipintr 和 ip reass 中 的 IP 分 片 处 理 


323-324 当 到 达 一 个 完整 的 数据 报时 ， 就 选择 这 个 el se 分 支 ， 并 按照 前 面 的 叙述 修改 
ip hlen, 这 是 一 个 普通 的 流 因为 收 到 的 大 多 数 数据 报 都 不 是 分 片 。 
如 采 重 装 处 理 产 生 一 个 完整 的 数据 报 ，ipintzr 就 把 这 个 完整 的 数据 报 上 传 给 合适 的 运输 
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层 协 议 (图 8-15): 


(*inetsw[ip protox[ip-»ip pll.pr input) (m,hlen); 


10.6 


ip reasseER Zi 


ipintz 把 一 个 要 处 理 的 分 片 和 一 个 指针 传 给 ip reass， 其 中 指针 指向 的 是 ipq 中 匹 
配 的 重 装 首部 。ip_reass 可 能 重 装 成 功 并 返回 一 个 完整 的 数据 报 ， 可 能 把 该 分 片 链 接 到 数 
据 报 的 重 装 链表 上 ， 等 待 其 他 分 片 到 达 后 重 装 。 每 个 重 装 链表 的 表 头 是 一 个 ipg 结 构 ， 如 图 





10-13 所 示 。 
52 struct ipg 4 wa 
53 struct ipq *next, *prev; /* to other reass headers */ 
54 u char ipa ttl; /* time for reass q to live */ 
55 u_char ipq p; /* protocol of this fragment */ 
56 u short ipq id; /* sequence id for reassembly */ 
57 struct ipasfrag *ipq next, *ipq prev; 
58 /* to ip headers of fragments */ 
59 struct in_addr ipq src, ipq dst; 
60 ); 


图 10-13 ”ipq 结 构 


52-60 用 来 标识 一 个 数据 报 分 片 的 四 个 字段 ，ip_id、ip_src、ip_dst 和 ip_p， 被 保 
存在 每 个 重 装 链表 表 头 的 pq 结构 中 。Net/3 用 next 和 prev 构 造 数据 报 链表 ， 用 ipq_next 
和 ipq_prev 构 造 分 片 的 链表 。 

到 达 分 组 的 IP 首 部 在 被 放 在 重 装 链 表 之 前 ， 首 先 被 转换 成 一 个 jpasfrag 结 构 ( 图 10-14)。 


66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
71 
78 
79 
80 


ip var.h 
struct  ipasfrag ( 
#1if BYTE ORDER == LITTLE ENDIAN 
u char ip h1:4, 
ip v:4; 
#endif 
#if BYTE_ORDER == BIG_ENDIAN 
u char ip v:4, 
ip hl:4; 
#endif 
u char ipf mff; /* XXX overlays ip tos: use low bit 
* to avoid destroying tos; 
* copied from (ip off&IP MF) */ 
short ip len; 
u short ip id; 
short ip.off; 
u char ip Etli 
u. char ip.p; 
u short ip sum; 
struct  ipasfrag *ipf next; /* next fragment */ 
struct  ipasfrag *ipf prev; /* previous fragment */ 
d ip var.h 


图 10-14 ipasfrag 结 构 


66-86 ip_reass 在 一 个 由 ipf_next 和 ipf_prev 链 接 起 来 的 双向 循环 链表 上 ， 收 集 某 个 
数据 报 的 分 片 。 这 些 指针 覆盖 了 IP 首 部 的 源 地 址 和 目的 地 址 。ipf_mff 成 员 覆 盖 ip 结 构 中 的 
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ip_ tos。 其 他 成 员 是 相同 的 。 
图 10-15 显 示 了 分 片 首部 链表 (ipq) 和 分 片 (ijpasfrag) 之 则 的 关系 。 


ipqí() 
ipa: 
没有 分 片 链接 
到 这 个 结构 上 





分 片 表 ， 按 分 片 偏 移 的 顺序 
ipasfrag() ipasfragt) 


收 到 的 某 个 数 
据 报 的 所 有 分 
ip gA | 


一 上 ipaprev jt ipt prev jet iptprev 一 
ipq() ipasfrag(í) 


- prev | 

p ; 收 到 的 某 个 数 
F 

| ipq next 一 


pa next -— — —e ipt next -|— 


图 10-15 分 片 首 部 链表 ijpq 和 分 片 


图 10-15 的 左下 部 是 重 装 首部 的 链表 。 表 中 第 一 个 节点 是 全 局 ipq 结 构 ，ipq。 它 永远 不 
会 有 自己 的 相关 分 片 表 。ipq 表 是 一 个 双向 链表 ， 用 于 支持 快速 插入 和 删除 。next 和 prev 
指针 指向 前 一 个 和 后 一 个 ipg 结 构 ， 用 终止 结构 的 角 上 的 箭头 表示 。 

图 10-15 仍 然 没 有 显示 重 装 结构 的 所 有 复杂 性 。 重 装 代 码 很 难 跟 踪 ， 因 为 它 完 全 依靠 把 指 
针 指 向 底层 mbuf 上 的 三 个 不 同 的 结构 。 我 们 已 经 接触 过 这 个 技术 了 ， 例 如 ， 当 一 个 ip 结构 柳 
盖 某 个 缓存 的 数据 部 分 时 。 

图 10-16 显 示 了 mbuf、ipq 结 构 、ipasfrag 结 构 和 ip 结 构 之 间 的 关系 。 

图 10-16 中 含有 大 量 信息 : 

。 所 有 结构 都 放 在 一 个 mbuf 的 数据 区 内 。 

。i pq 链表 由 next 和 prev 链 接 起 来 的 ipqg 结 构 组 成 。 每 个 ipg 结 构 保存 了 唯一 标识 一 个 

IP 数 据 报 的 四 个 字段 (图 10-16 中 的 阴影 部 分 )。 

。 当 作为 分 片 链表 的 头 访问 时 ， 每 个 ipqg 结 构 被 看 成 是 一 个 tpasfzrag 结 构 。 这 些 分 片 由 

ipf_next 和 ipf prev 链 接 起 来 ， 分 别 覆 盖 了 ipqg 结构 的 ijpq_next 和 ipq_prev 成 员 。 

。 每 个 ipasfzrag 结 构 都 覆盖 了 到 达 分 片 的 ip 结构 ， 与 分 片 一 起 到 达 的 数据 在 缓存 中 跟 在 

该 结构 之 后 。ipasfzag 结 构 的 阴影 部 分 的 成 员 的 含义 与 其 在 ip 结构 中 不 太 相 同 。 
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ipq next |ipq prev|: | 
d. : | | 

图 ten | ia | ore ioo | sum | 

1 up ME 5 5s MU ME AEZ IE AE S 


hl 


图 10-16 可 通过 多 种 结构 访问 的 一 段 内 存 区 
图 10-15 显 示 了 这 些 重 装 结 构 之 间 的 物理 连接 , 图 10-16 显 示 了 ip_reass 使 用 的 覆盖 技术 。 
图 10-17 从 逻辑 的 观点 说 明 重 装 结 构 : 该 图 显示 了 三 个 数据 报 的 重 装 ， 以 及 ipq 链 表 和 
ipasfrag 结 构 之 间 的 关系 。 


fp 





ipat{} 
ipd: 


ip idz5 
ipasfragí) ipasfrag(í) | Y ipasfragí) 
0 wr 27 1544 Mr 814/816 1031 


| | ipasfragí) z ipasfragí) 


EUSE e sepe m me] 


a | | ipasfrag(í() 
CIO MD PU 2 816 1031 


图 10-17 三 个 IP 数 据 报 的 重 装 


每 个 重 装 链表 的 表 头 包含 原始 数据 报 的 标识 符 、 协 议 、 源 和 目的 地 址 。 图 中 只 显示 了 
ip_id 字 段 。 分 片 表 通 过 偏 移 字 段 排序 ， 如 果 MF 比 特 被 置 位 ， 则 用 ME 标志 分 片 ， 缺 少 的 分 
片 出 现在 阴影 里 。 每 个 分 片 内 的 数字 显示 了 该 分 片 的 开始 和 结束 字 节 相对 于 原始 数据 报 数据 
区 的 相对 偏 移 ， 而 不 是 相对 于 原始 数据 报 的 IP 首 部 。 

这 个 例子 是 用 来 说 明 三 个 没有 卫 选 项 的 UDP 数据 报 , 其 中 每 个 数据 报 都 有 1024 字 有 的 数据 。 
每 个 数据 报 的 全 长 是 1052(20+8+1024) 字 市 ， 正 好 适合 1500 字 市 以 太 网 MTU。 在 到 目的 主机 的 
途中 ， 这 些 数 据 报 会 遇 到 一 个 SLIP 链 路 ， 该 链 路 上 的 路 由 絮 对 数据 报 分 厂 ， 使 其 大 小 适 于 放 
在 典型 的 296 字 市 的 SLIP MTU 中 。 每 个 数据 报 分 4 个 分 片 到 达 。 第 1 个 分 片 中 包含 一 个 标准 的 
20 字 节 IP 首 部 ，8 字 市 UDP 首 部 和 264 字 市 数据 。 第 2 个 和 第 3 个 分 片 中 包含 一 个 20 字 市 IP 首 部 和 
272 字 市 数据 。 最 后 一 个 分 片 中 有 一 个 20 字 市 首部 和 216 字 市 数据 (1032=272 x 3+216)。 

在 图 10-17 中 ， 数 据 报 5 缺少 一 个 包含 272~543 字 市 的 分 片 。 数 据 报 6 缺少 第 一 个 分 片 ， 
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0~271 字 节 ， 以 及 最 后 一 个 从 偏 移 816 开 始 的 分 片 。 数 据 报 7 缺 少 前 三 个 分 片 ，0~815。 
图 10-18 列 出 了 ip reass。 前 面 讲 到 ， 当 目的 地 是 本 主机 的 某 个 IP 分 片 到 达 时 ， 在 处 理 
完 所 有 选项 后 ，ipintr 会 调用 ip_reass。 


337 
3389 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 


353 
354 
355 
356 
357 
358 


465 
466 
467 
468 
469 


/* 
* 
* 
* 
* 


* 


st 


ip input.c 


Take incoming datagram fragment and try to 
reassemble it into whole datagram. If a chain for 
reassembly of this datagram already exists, then it 
is given as fp; otherwise have to make a chain. 

/ 

ruct ip * 


ip reass(ip, fp) 


st 
St 
( 


) 


ruct ipasfrag *ip; 
ruct ipq *fp; 


strüct mbuf wm = dtomí(ip); 
struct ipasfrag *q; 
struct mbuf *t; 


int hlen = ip-»ip bl << 2; 
int i, next; 
/* 


* Presence of header sizes in mbufs 
* would confuse code below. 





"Y 
m-»m data += hlen; 
m- »m 1l en -- hlen; 
/* reassembly code 
dropfrag: 


ipstat.ips fragdropped-4-; 
m freem(m); 
return (0); 


ip input.c 


图 10-18 函数 ip_reass: ZW dE 


343-358 当 调 用 ip_reass 时 ，ip 指 向 分 片 Ep 或 者 指向 匹配 的 1pg 结 构 或 者 为 空 。 
因为 重 装 只 涉及 每 个 分 片 的 数据 部 分 ， 所 以 ip_reass 调 整 含 有 该 分 片 的 mbuf 的 m_data 和 
m_len， 减 去 每 个 分 片 的 IP 首 部 。 
465-469 在 重 装 过 程 中 ， 如 果 产 生 错 误 ,， 该 函数 就 跳 到 dropfrag。dropfrag 增 加 
ips_fragdropped， 丢 弃 该 分 片 ， 并 返回 一 个 空 指针 。 
在 运输 层 丢 弃 分 片 通常 会 严重 降低 性 能 ， 因 为 必须 重 传 整个 数据 报 。TCP 谨 慎 地 避免 分 
片 ， 但 是 UDP 应 用 程序 必须 采取 步骤 以 避免 对 自己 分 片 。[Kent 和 Mogul 1987] 解释 了 为 什么 
应 该 避免 分 片 。 
所 有 IP 实 现 必须 能 够 重 装 最 多 576 字 节 的 数据 报 。 没 有 通用 的 方法 来 确定 远程 主机 能 重 装 
的 最 大 数据 报 的 大 小 。 我 们 将 在 27.5 节 中 看 到 TCP 提 供 了 一 个 机 制 ， 可 以 确定 远程 主机 所 能 
理 的 最 大 数据 报 的 大 小 。UDP 没 有 这 样 的 机 制 ， 所 以 许多 基于 UDP 的 协议 (例如 ，RIP、TFTP、 
BOOTP、SNMP 和 DNS)， 都 限制 在 576 字 市 左右 。 
我 们 将 分 7 个 部 分 显示 重 装 代码 ， 从 图 10-19 开 始 。 
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TT E ip input.c 
360 * If first fragment to arrive, create a reassembly queue. 
361 * i 
362 if (fp ss 0) ( 
363 if ((t = m get (M DONTWAIT, MT FTABLE)) == NULL) 
364 goto dropfrag; 
365 fp = mtod(t, struct ipq *); 
366 insque(fp, &ipq); 
367 fp-»ipq ttl = IPFRAGTTL; 
368 Ip-»ipq p = lD-»1D. Dp: 
369 fp-»ipq id = ip-»ip id; 
370 fp-»ipq next = fp-»ipq prev = (struct ipasfrag *) fp; 
371 fp-»ipqg.src = ((struct ip *) ip)-»ip.src; 
342 fp-»ipq dst = ((struct ip *) ip)-»ip dst; 
373 q = (struct ipasfrag *) fp; 
374 goto insert; 
375 PC we 
ip input.c 
图 10-19 Kğtip reass: 创建 重 装 表 
1. 创建 重 装 表 


359-366 当 fp 为 空 时 ，ip_reass 用 新 的 数据 报 的 第 一 个 分 片 创 建 一 个 重 装 表 。 它 分 配 一 
个 mbuf 来 存放 新 表 的 头 (一 个 ipg 结 构 )， 并 调用 insque， 把 该 结构 插入 到 重 装 表 的 链表 中 。 
图 10-20 列 出 了 操作 数据 报 和 分 片 链 表 的 畏 数 。 


Net/3 的 386 版 本 是 在 machdep.c 文 件 中 定义 insque 和 remque 函 数 的 。 每 台 机 器 都 
有 自己 的 文件 ， 在 其 中 定义 核心 函数 ， 通 常 是 为 提高 性 能 。 该 文件 也 包括 与 机 器 体 
系 结 构 有 关 的 函数 ， 和 包括 中 断 处 理 支 持 、CPU 和 设备 配置 以 及 内 存 管 理 函 数 。 

insque 和 remque 的 存在 主要 是 为 了 维护 内 核 执行 队列 。Net3 可 把 它们 用 于 数 
据 报 重 装 链表 ， 因 为 链表 具有 下 一 个 和 前 一 个 两 个 指针 ， 分 别 作 为 各 自 节点 结构 的 
前 两 个 成 员 。 对 任何 类 型 结构 的 链表 ， 这 些 函 数 同样 可 以 用 ， 尽 管 编译 器 可 能 会 发 
出 一 些 警告 。 这 也 是 另 一 个 通过 两 个 不 同 结构 访问 内 存 的 例子 。 

在 所 有 内 核 结构 里 ， 下 一 个 指针 通常 位 于 前 一 个 指针 的 前 面 (例如 ， 图 10-14)。 
这 是 因为 insdque 和 remque 最 早 是 在 VAX 上 用 insdque 和 remque 硬 件 指 令 实 现 的 ， 
这 些 指 令 要 求 前 向 和 后 向 指针 具有 这 种 顺序 。 

分 片 表 不 是 用 ipasfzrag 结 构 的 前 两 个 成 员 链接 起 来 的 (图 10-14)， 所 以 Net/3 调 
用 ip deq 和 ip enq 而 不 是 ijnsque 和 remque。 


insque 紧 接 在 prev 后 面 插 入 node 


void insque (void *node, void* prev); 


Remque | 把 node 从 表 中 移 走 


void remque(void *node); 


ip enq | 紧 接 在 分 片 prev 后 面 插入 分 片 P 


void ip enq(struct ipasfrag *p, Struct ipasfrag * prev); 


ip deq | 移 走 分 片 p 
void ip deq(struct ipasfrag *p); 


图 10-20 ip reass 采 用 的 队列 函数 
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2. 重 装 超时 
367 RFC 1122 要 求 有 生命 期 字段 (ipq_tt1)， 并 限制 Net/3 等 待 分 片 以 完成 一 个 数据 报 的 时 
间 。 这 与 IP 首 部 的 TTL 字 段 是 不 同 的 ， 卫 首部 的 TTL 字 段 是 为 了 限制 分 组 在 互联 网 中 循环 的 时 
间 。 重 用 IP 首 部 的 TTL 字 段 作为 重 装 超时 的 原因 在 于 ， 一旦 分 片 到 达 它 的 最 终 目 的 地 ， 就 不 
再 需要 首部 TTL。 

在 Net/3 中 ， 重 装 超时 的 初始 值 设 为 60 (IPFRRAGTTL)。 因 为 每 次 内 核 调 用 ip slowtimo 
时 ，ipq_tt1 就 减 去 1， 而 内 核 每 500 ms 调用 ip_slowtimo 一 次 。 如 果 系 统 在 接收 到 数据 报 
的 任 一 分 片 30 秒 后 ， 还 没有 组 装 好 一 个 完整 的 IP 数 据 报 ， 那 么 系统 就 丢弃 该 IP 重 装 链 表 。 重 
装 定时 器 在 链表 被 创建 后 的 第 一 次 调用 ip_slowtimo 时 开始 计时 。 

RFC 1122 推 荐 重 装 时 间 在 60~120 秒 内 ， 并 且 当 收 到 数据 报 的 第 一 个 分 片 且 定时 器 超时 时 ， 
向 源 主机 发 出 一 个 ICMP 超 时 差错 报 文 。 重 装 后 ， 总 是 丢弃 其 他 分 片 的 首部 和 选项 ， 并 且 在 
ICMP 差 错 报 文中 必须 包含 出 错 数 据 报 的 前 64 bit( 或 者 ， 如 果 该 数据 报 短 于 8 字 市 ， 就 可 以 少 一 
些 )。 所 以 ， 如 果 内 核 还 没有 接收 到 分 片 0， 它 就 不 能 发 ICMP 报 文 。 

Net/3 的 定时 器 要 短 一 些 ， 并 且 当 和 去 弃 分 片 时 ，Net/3 不 发 送 ICMP 报 文 。 要 求 返 

回 数据 报 的 前 64 bit 保 证 含有 运输 层 首部 的 前 镶 ， 这 样 就 可 以 把 差错 报 文 返回 给 发 生 

错误 的 应 用 程序 。 注 意 ， 因 为 这 个 原因 ，TCP 和 UDP 有 意 把 它们 的 端口 号 放 在 首部 的 

前 8 个 字 节 。 


3. 数据 报 标 识 符 
368-375 ip reass 在 分 配给 该 数据 报 的 jpq 结 构 中 保存 jp _p、ip_id、ip_src 和 
ip dst, 让 ipq next 和 ipq_prev 指 针 指 向 该 ijpq 结 构 ( 也 就 是 说 ， 它 用 一 个 市 点 构造 一 个 
循环 链表 )， 让 gq 指向 这 个 结构 ， 并 跳 到 ijnsert( 图 10-25)， 把 第 一 个 分 片 ip 插 入 到 新 的 重 装 
表 中 去 。 

ip reass 的 下 一 个 部 分 (图 10-21) 是 当 fp 不 空 ， 并 已 当前 表 中 为 新 的 分 片 找到 正确 位 置 
后 执行 的 。 


YT P ip input.c 
377 * Find a fragment which begins after this one does. 
378 = 
379 for (q = fp-»ipq next; q !- (struct ipasfrag *) fp; q = q-»ipf next) 
380 if (q-»ip off > ip-»ip off) 
381 break; pop- 
ip input.c 


图 10-21 Krip reass: 在 重 装 链表 中 找 位 置 


376-381 因为 fp 不 空 ， 所 以 for 循 环 搜索 数据 报 的 分 片 链表 ， 找 到 一 个 偶 移 大 于 ip_off 
HID Hr. 

在 目的 主机 上 ， 分 片 包含 的 字 节 范围 可 能 会 相互 覆盖 。 发 生 这 种 情况 的 原因 是 ， 当 一 个 
运输 层 协 议 重 传 某 个 数据 报时 ， 采 用 与 原来 数据 报 不 同 的 路 由 ， 而 且 ， 分 片 的 模 却 也 可 能 不 
同 ， 这 就 导致 在 目的 主机 上 的 相互 覆盖 。 传 输 协 议 必 须 能 强制 阳 使 用 原来 的 ID 字段 ， 确 保 目 
的 主机 识别 出 该 数据 报 是 重 传 的 。 

Net/3 并 不 为 运输 层 协议 提供 机 制 保证 在 重 传 的 数据 报 中 重用 IP ID 字段 。 在 准备 
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新 数据 报时 ，ip output 通 过 增加 全 局 整数 jp id 来 赋 一 个 新 值 ( 图 8-22)。 尽 管 如 
此 ，Net/3 系 统 也 能 从 让 运输 层 用 相同 I 有 D 字 段 重 传 I[P 数 据 报 的 系统 上 接收 重 登 的 分 片 。 
图 10-22 说 明 分 片 可 能 会 以 不 同 的 方式 与 已 经 到 达 的 分 片 重合。 分 片 是 按照 它们 到 达 目 的 
主机 的 顺序 编号 的 。 重 装 的 分 片 在 图 10-22 底 部 显示 ， 分 片 的 阴影 部 分 是 被 丢弃 的 多 余 字 证 
在 下 面 的 讨论 中 ， 早 到 (earlier) 分 片 是 指 先 前 到 达 主 机 的 分 片 。 
分 片 1 分 片 2 分 片 3 分 片 4 


本 pes THÉ 

分 片 3 Eno ; 

og Wl E F m or RR 
一 一 一 一 一 一 一 一 一 一 重组 装 的 数据 报 。 一 一 一 一 一 一 一 一 一 一 一 | 


图 10-22 可 能 会 在 目的 主机 重合 的 分 片 的 字 市 疙 围 


图 10-23 中 代码 截断 或 丢弃 到 达 的 分 片 。 
382-396 ip _reass 把 新 片 中 与 早 到 分 片 未 尾 重 又 的 字 节 丢弃 ， 截 断 重复 的 部 分 (图 10-22 中 分 
片 5 的 前 部 )， 或 者 ， 如 果 新 分 片 的 所 有 字 节 已 经 在 早先 的 分 片 中 (分 片 4) 出 现 ， 就 丢弃 整个 新 
分 片 (分 片 6)。 


—— ER ip input.c 

383 * If there is a preceding fragment, it may provide some of 

384 * our data already. If so, drop the data from the incoming 

385 * fragment. If it provides all of our data, drop us. 

386 "Y 

387 if (q-»ipf prev !- (struct ipasfrag *) fp) ( 

388 i = q-»ipf prev-»ip off + q-»ipf prev-»ip len - ip-»ip off; 

389 ift [1 » 90) [ 

390 lf (i >= 1p-»ip.len) 

391 goto dropfrag; 

392 m adj (dtom(ip), i); 

393 ip-»ip off += i; 

394 ip-»ip len -= i; 

395 } 

396 } Po 
ip_input.c 


图 10-23 国 数 ip_reass: 截断 到 达 分 组 


图 10-24 中 的 代码 截断 或 丢弃 已 有 的 分 片 。 
397-412 如 果 当 前 分 片 部 分 地 与 早 到 分 片 的 前 端 部 分 重合 ， 就 把 早 到 分 片 中 重复 的 数据 截 
掉 (图 10-22 中 分 片 2 的 前 部 )。 丢 弃 所 有 与 当前 分 片 完全 重合 的 早 到 分 片 (分 片 3)。 

图 10-25 中 ， 到 达 分 片 被 插入 到 重 装 链表 。 
413-426 在 截断 后 ，ip_eng 把 该 分 片 插 入 链表 ， 并 扫描 整个 链表 ， 确 定 是 否 所 有 分 片 全 
部 到 达 。 如 果 还 缺少 分 片 ， 或 链表 最 后 一 个 分 片 的 ipf_mff 被 置 位 ，ip_reass 就 返回 0， 并 
等 待 更 多 的 分 片 。 | 

当 目 前 的 分 片 完成 一 个 数据 报 后 ， 整 个 链表 被 图 10-26 所 示 的 代码 转换 成 一 个 mbuf 链 。 
427-440 如果 某 个 数据 报 的 所 有 分 片 都 被 接收 下 来 ，while 人 循环 用 m_cat 把 分 片 重新 构造 
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成 数据 报 。 

m j* ip input.c 
398 * While we overlap succeeding fragments trim them or, 
399 * if they are completely covered, dequeue them. 
400 wf 
401 while (q !=(struct ipasfrag *) fp && ip->ip_off+ip->ip_len > q->ip_off)t 
402 i = (ip-»ip off + ip-»ip len) - q-»ip off; 
403 if (i < q-»ip len) í 
404 q-»ip len -- i; 
405 q-»ip.off += 1; 
406 m adj (dtom(q), i); 
407 break; 
408 ) 
409 q - q-»ipf next; 
410 m freem(dtom(q-»ipf prev)); 
411 ip deq(q-»ipf prev); 
412 ) e 

ip input.c 

图 10-24 Krip reass: 截断 已 有 分 组 

413 insert: Lap 
414 ' dad 
415 * Stick new fragment in its place; 
416 * check for complete reassembly. 
417 x i 
418 ip enq(ip, q-»ipf. prev); 
419 next - 0; 
420 for (qd = fp-»ipq next; qd != (struct ipasfrag *) fp; q = q-»ipf next) ( 
421 if (q-»ip.off l= next) 
422 return (0); 
423 next += q-»ip len; 
424 ) 
425 if (q-»ipf prev-»ipf mff & 1) 
426 return (0); "Ae 

ip input.c 

图 10-25 函数 ijp reass: 插入 分 组 
—ip_input.c 

427 p 
428 * Reassembly is complete; concatenate fragments. 
429 TI 
430 q = fp-»ipq next; 
431 m - dtom(q); 
432 t = m-»m next; 
433 m-»m next - 0; 
434 m cat(m, t); 
435 q = q-»ipf next; 
436 while (qg l= (struct ipasfrag *) fp) i 
437 t - dtom(q); 
438 q - q-»ipf next; 
439 m cat(m, t); 
440 ) "T 

ip input.c 





图 10-26 函数 ip_reass: 重 装 数据 报 
图 10-27 显 示 了 一 个 有 三 个 分 片 的 数据 报 的 mbuf 和 ipq 结 构 之 间 的 关系 。 
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图 10-27 m_cat 重 装 缓存 内 的 分 片 


图 中 最 暗 的 区 域 是 分 组 的 数据 部 分 ， 稍 淡 的 阴影 部 分 是 mbuf 中 未 用 的 部 分 。 有 三 个 分 片 ， 
每 个 分 片 都 被 存放 在 一 个 有 两 个 mbuf 的 链 上 : 一 个 分 组 首部 和 一 个 化。 每 个 分 片 的 第 一 个 组 
存 上 的 m_data 指 针 指 向 分 组 数据 ， 而 不 是 分 组 的 首部 。 因 此 ， 由 m_cat 构 造 的 缓存 链 只 包 
含 分 片 的 数据 部 分 。 

当 一 个 分 片 含 有 多 于 208 字 节 的 数据 时 ， 情 况 通常 是 这 样 的 (2.6 节 )。 缓 存 的 “frag ”部 分 是 
分 片 的 IP 首 部 。 由 于 图 10-18 中 的 代码 ， 各 缓存 链 第 一 个 缓存 的 m_data 指 针 指 则 “opts” 之 后 。 

图 10-28 显 示 了 用 所 有 分 片 的 缓存 重 装 的 数据 报 。 注 意 ， 分 片 2 和 3 的 IP 部 分 和 选项 不 在 重 
装 的 数据 报 里 。 

第 一 个 分 片 的 首部 仍然 被 用 作 ipasfrag 结 构 。 它 被 图 10-29 中 的 代码 恢复 成 一 个 有 效 的 
IP 数 据 报 首 部 。 

4. 重建 数据 报 首部 
441-456 ip_reass 把 ip 指 癌 链表 的 第 一 个 分 片 ， 将 ipasfrag 结 构 恢 复 成 ip 结构 : 把 数 
据 报 长 度 恢复 成 ijp_len，, 源 站 地 址 恢复 成 ijp_src， 目的 地 址 恢复 成 ijp_dst; 并 把 
ipf_mff 的 低位 清 零 ( 从 图 10-14 可 以 知道 ，ipasfrag 结 构 的 jpf_mff 禾 盖 了 ip 结 构 的 
ipf tos), 

ip_reass 用 zxemque 把 整个 分 组 从 重 装 链表 中 移 走 ， 丢 弃 链 表 头 1pg 结 构 ， 调 整 第 一 个 
缓存 中 的 m_len 和 m_data， 将 前 面 被 隐藏 起 来 的 第 一 个 分 片 的 首部 和 选项 包含 进来 。 
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分 片 1 的 人 P 首 部 和 选项 


图 10-28 重 装 的 数据 报 


ET rm ip input.c 
442 * Create header for new ip packet by 
443 * modifying header of first packet; 
444 * dequeue and discard fragment reassembly header. 
445 * Make header visible. 
446 */ 
447 lp = fp-»ipq next; 
448 ip-»ip len = next; 
449 ip-»ipf mff &- ^1; 
450 ((Struct ip *) ip)-»ip.src = fp-»ipq sro; 
451 ((struct ip *) ip)-»ip dst = fp-»ipqg dst; 
452 remque (fp); 
453 (void) m free(dtom(fp)); 
454 m dcom(ip): 
455 m-»m len += (ip-»ip hl << 2); 
456 m-»m data -= (ip-»ip hl << 2); 
457 /* some debugging cruft by sklower, below, will go away soon */ 
458 if (m-»m flags & M PKTHDR) ( /* XXX this should be done elsewhere */ 
459 int plen = 0; 
460 for (t = m; m; m = m-»m next) 
461 plen += m-»m len; 
462 t-»m pkthdr.len - plen; 
463 } 
464 return ((SEruct ip *) ip); I 
ip input.c 
图 10-29 函数 ip_reass: 数据 报 重 装 
5. 计算 分 组 长 度 
457-464 ”此 处 的 代码 总 被 执行 ， 因 为 数据 报 的 第 一 个 缓存 总 是 一 个 分 组 首部 。f£or 循 环 计 


算 缓 存 链 中 数据 的 字 节 数 ， 并 把 值 保存 在 m_pkthdr .1en 中 。 

在 选项 类 型 字段 中 ，copied 比 特 的 意义 现在 应 该 很 明白 了 。 因 为 目的 主机 只 保留 那些 出 现 
在 第 一 个 分 片 中 的 选项 ， 而 且 只 有 那些 在 分 组 去 往 目的 主机 的 途中 控制 分 组 处 理 的 选项 才 被 
复制 下 来 。 不 复制 那些 在 传送 过 程 中 收集 信息 的 选项 ， 因 为 当 分 组 在 目的 主机 上 被 重 准时 ， 
所 有 收集 的 信息 都 被 丢弃 了 。 
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10.7 ip slowtimor ží 


如 7.4 节 所 述 ，Net/3 的 各 项 协议 可 能 指定 每 500 ms 调用 一 个 函数 。 对 IP 而 言 ， 这 个 函数 是 
ip slowtimo， 如 图 10-30 所 示 ， 为 重 装 链表 上 的 分 片 计时 。 


pem Ip input.c 

516 ip slowtimo(void) 

517 4 

518 struct ipaq *fp; 

519 int s = splnet(); 

520 fp = ipq.next; 

521 JL (fp == 0X) 4 

522 splx (s); 

523 return; 

524 ) 

525 while (fp !- &ipq) ( 

526 --fp-»ipq ttl; 

527 fp = fp-»next; 

528 if (fp-»prev-»ipq ttl == 0) ( 

529 ipstat.ips fragtimeout-«-; 

530 ip freef(fp-»prev); 

531 ) 

532 ) 

533 Splx(s); 

534 ) ET 
ip input.c 


图 10-30 ip slowtimorKZk 


515-534 ip_slowtimo 遍 历 部 分 数据 报 的 链表 ， 减 少 重 装 TTL 字 段 。 当 该 字段 减 为 0 时 , 
就 调用 ip_freef， 把 与 该 数据 报 相关 的 分 片 都 丢弃 。 在 splnet 处 运行 jp_slowtimo， 避 
免 到 达 分 组 修改 链表 。 

ip freef 显 示 如 图 10-31。 
470-486 ip_freef 移 走 并 释放 链表 上 fp 指向 的 各 分 片 ， 然 后 释放 链表 本 身 。 


474 void i 
475 ip_freef (fp) 
476 struct ipq *fp; 
477 ( 
478 struct ipasfrag *q, *p; 
479 for (q s fp-»ipq next; q !s (struct ipasfrag *) fp; q =p) { 
480 p = q-»ipf next; 
481 ip deqa(q); 
482 m freem(dtom(q)); 
483 } 
484 remque (fp); 
485 (void) m free(dtom(fp)); 
486 ) uu 
ip input.c 


10-31 ip freefIRZ 


ip drain% 


在 图 7-14 中 ， 我 们 讲 到 IP 把 ip_drain 定 义 成 一 个 当 内 核 需要 更 多 内 存 时 才 调 用 的 函数 。 
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这 种 情况 通常 发 生 在 我 们 讨论 过 的 (图 2-13) 分 配 缓存 时 。ip_drain 显 示 如 图 10-32。 


538 void xls 
539 ip drain() 
540 ( 


541 while (ipq.next !- &ipq) ( 


542 ipstat.ips fragdropped--; 
543 ip freef(ipq.next); 

544 ) 

545 3J 


ip input.c 
10-32 ip drain% 


538-545 IP 释放 内 存 的 最 简单 办 法 就 是 丢弃 重 装 链 表 上 的 所 有 IP 分 片 。 对 属于 某 个 TCP 报 
文 段 的 分 片 ，TCP 最 终 会 重 传 该 数据 。 属 于 UDP 数 据 报 的 IP 分 片 就 丢失 了 ， 基 于 UDP 的 协议 
必须 在 应 用 程序 层 处 理 这 种 情况 。 


10.8 小 结 


本 章 展示 了 当 一 个 外 出 的 数据 报 过 大 而 不 适 于 在 选 定 网 络 上 传送 时 ，ip_output 如 何 对 
数据 报 分 片 。 由 于 分 片 在 加 目的 地 传送 的 途中 可 能 会 被 继续 分 片 ， 也 有 可 能 走 不 同 的 路 径 ， 
所 以 只 有 目的 主机 才能 组 装 原 来 的 数据 报 。 

ip_reass 接 收 到 达 分 片 ， 并 试图 重 装 数 据 报 。 如 采 重 装 成 功 ， 就 把 数据 报 传 回 ipintz， 
然后 提交 给 恰当 的 运输 层 协议 。 所 有 卫 实 现 必须 能 够 重 装 最 多 576 字 下 的 数据 报 。NetV3 的 唯一 
限制 就 是 可 以 得 到 的 mbuf 的 个 数 。 如 果 在 一 段 合 理 的 时 间 内 ， 没 有 接收 完 数 据 报 的 所 有 分 片 ， 
ip_slowtimo 就 丢弃 不 完整 的 数据 报 。 


习题 


10.1 修改 ijp_slowtimo， 当 它 丢 弃 一 个 不 完整 数据 报时 (图 11-1)， 发 出 一 个 ICMP 超 时 
差错 报 文 。 

10.2 在 分 片 的 数据 报 中 ， 各 分 片 记录 的 路 由 可 能 互 不 相同 。 在 目的 主机 上 重 装 某 个 数据 
报时 ， 返 回 给 运输 层 的 哪 一 个 路 由 ? 

10.3 画 一 个 图 说 明 图 10-17 中 ID 为 7 的 分 片 的 ipg 结 构 所 涉及 的 mbuf 和 相关 的 分 片 链表 。 

10.4 [Auerbach 1994] 建议 在 对 数据 报 分 片 后 ， 应 该 首先 传送 最 后 的 分 片 。 如 果 接 收 系 
统 先 收 到 最 后 的 分 片 ， 它 就 可 以 利用 偏 移 值 为 数据 报 分 配 一 个 大 小 合适 的 缓冲 区 。 
请 修改 ip_output， 首 先 发 送 最 后 的 分 片 。 


[Auerbach 1994] 注意 到 某 些 商用 TCP/IP 实 现 如 果 先 收 到 最 后 的 分 片 ， 就 会 
SEL, 
10.5 用 图 8-5$ 中 的 统计 回答 下 面 的 问题 。 什 么 是 每 个 重 装 的 数据 报 的 平均 分 片 数 ? 当 一 
个 外 出 的 数据 报 被 分 片 时 ， 创 建 的 平均 分 片 数 是 多 少 ? 
10.6 如 果 ip_off 的 保留 比特 被 置 位 ， 分 组 会 发 生 什么 情况 ? 


第 11 草 ICMP.: Internet 探 制 报 文 协 议 


11.1 引言 


ICMP 在 IP 系 统 则 传递 差错 和 管理 报 文 ， 是 任何 IP 实 现 必需 和 要 求 的 组 成 部 分 。ICMP 的 规 
i5, V RFC 792 [Postel 1981b]。RFC 950 [Mogul 和 Postel 1985] 和 RFC 1256 [Deering 1991a] 定 义 
了 更 多 的 ICMP 报 文 类 型 。RFC 792 [Braden 1989a] 提 供 了 重要 的 ICMP 细 节 。 

ICMP 有 上 自己 的 传输 协议 号 (1)， 人 允许 ICMP 报 文 在 IP 数 据 报 内 携带 。 应 用 程序 可 以 直接 从 
第 32 章 讨论 的 原始 IP 接 口 发 送 或 接收 ICMP 报 文 。 

我 们 可 把 ICMP 报 文 分 成 两 类 : 差错 和 查询 。 查 询 报 文 是 用 一 对 请 求 和 回答 定义 的 。 
ICMP 差 错 报 文通 常 包含 了 引起 错误 的 IP 数 据 报 的 第 一 个 分 片 的 IP 首 部 (和 选项 )， 加 上 该 分 片 
数据 部 分 的 前 8 个 字 市 。 标 准 假 定 这 8 个 字 市 包含 了 该 分 组 运输 层 首 部 的 所 有 分 用 信息 ， 这 样 
运输 层 协 议 可 以 同 正 确 的 进程 提交 ICMP 差 错 报 文 。 

TCP 和 UDP 端 口号 在 它们 首部 的 前 8 个 字 节 内 出 现 。 

图 11-1 显 示 了 所 有 目前 定义 的 ICMP 报 文 。 双 线 上 面 的 是 ICMP 请 求 和 回答 报 文 ， 双 线 下 面 
T er 


| typficode | 
mmt m] —— 
ICMP. ECHOREPLY 回 显 回答 
ICMP TSTAMPREPLY Mis REZ 
ICMP_MASKREPLY m 回答 


TCMP IREQ 信息 请 求 (过 
TCMP IREQREPLY 信息 回答 pai 


ICMP_ROUTERADVERT 路 由 器 通告 

ICMP ROUTESOLICIT 路 由 器 请 求 

TCMP REDIRECT 有 更 好 的 路 由 
TCMP REDIRECT NET 网 络 有 更 好 的 路 由 PRC_REDIRECT HOST 
ICMP REDIRECT HOST 主机 有 更 好 的 路 由 PRC REDIRECT HOST 
ICMP REDIRECT TOSNET TOS 和 网 络 有 更 好 的 路 由 PRC REDIRECT HOST 
ICMP REDIRECT TOSHOST TOS 和 主机 有 更 好 的 路 由 PRC REDIRECT HOST 
其 他 不 识别 码 

ICMP UNREACH 目的 主机 不 可 达 
ICMP UNREACH NET 网 络 不 可 达 PRC UNREACH NET 
ICMP UNREACH HOST 主机 不 可 达 PRC UNREACH HOST 





图 11-1 ICMP 报 文 类 型 和 代码 
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type 和 code 


ICMP UNREACH PROTOCOL 目的 主机 上 协议 不 能 用 PRC UNREACH PROTOCOL 
ICMP UNREACH PORT 目的 主机 上 端口 没有 被 激活 | PRC UNREACH PORT 
ICMP UNREACH SRCFAIL 源 路 由 失败 PRC UNREACH SRCFAIL 
ICMP UNREACH NEEDFRAG 需要 分 片 并 设置 DF 比特 PRC MSGSIZE 
ICMP UNREACH NET UNKNOWN 目的 网 络 未 知 PRC UNREACH NET 
ICMP UNREACH HOST UNKNOWN 目的 主机 未 知 PRC UNREACH HOST 
ICMP UNREACH ISOLATED 源 主机 被 隔离 PRC UNREACH HOST 
ICMP UNREACH NET PROHIB 从 管理 上 禁止 与 目的 网 络 通信 | PRC UNREACH NET 
ICMP UNREACH HOST PROHIB 从 管理 上 禁止 与 目的 主机 通信 | PRC UNREACH HOST 
TCMP UNREACH TOSNET 对 服务 类 型 ， 网 络 不 可 达 PRC UNREACH NET 
ICMP UNREACH TOSHOST 对 服务 类 型 ， 主 机 不 可 达 PRC UNREACH HOST 
13 用 过 滤 从 管理 上 禁止 通信 
14 主机 优先 违规 
15 事实 上 优先 切断 
其 他 不 识别 码 

ICMP TIMXCEED 超时 
ICMP TIMXCEED INTRANS 传送 过 程 中 IP 生 存 期 到 期 PRC TIMXCEED INTRANS 
ICMP TIMXCEED REASS 重 装 生存 期 到 期 PRC TIMXCEED REASS 
其 他 不 识别 码 

ICMP PRRAMPROB IP 首 部 的 问题 
0 未 指明 首部 差错 PRC PARAMPROB 
ICMP PRRAMPROB OPTABSENT 丢失 需要 的 选项 PRC PARAMPROB 
其 他 EAFF Ouf 


图 11-1 (5€) 





图 11-1 和 图 11-2 中 含有 大 量 信息 : 

。PRC_ 栏 显示 了 Net3 处 理 的 与 协议 无 关 的 差错 码 (11.6 节 ) 和 ICMP 报 文 之 间 的 映射 。 对 请 
求 和 回答 ， 这 一 列 是 空 的 。 因 为 在 这 种 情况 下 不 会 产生 差错 。 如 果 对 一 个 ICMP 差 错 ， 
这 一 行为 室 ， 说 明 Net3 不 识别 该 码 ， 并 自动 丢弃 该 差错 报 文 。 

。 图 11-3 显 示 了 我 们 讨论 图 11-2 所 列国 数 的 位 置 。 

*icmp _ input 栏 是 icmp input 为 每 个 ICMP 报 文 调用 的 国 数 。 

。UDP 栏 是 为 UDP 插 口 处 理 ICMP 报 文 的 函数 。 

。TCP 栏 是 为 TCP 插 口 处 理 ICMP 报 文 的 函数 。 注 意 ， 是 tcp_quench 处 理 ICMP 源 站 抑制 
差错 ， 而 不 是 tcp_notify。 

。 如 果 errno 栏 为 空 ， 内 核 不 辐 进 程 报告 1CMP 报 文 。 

。 表 的 最 后 一 行 显示 ， 在 用 于 接收 ICMP 报 文 的 进程 的 接收 点 上 ， 不 识别 的 ICMP 报 文 被 提 
交 给 原来 的 卫 协 议 。 

在 Net/3 中 ，ICMP 是 作为 IP 之 上 的 一 个 运输 层 协议 实现 的 ， 它 不 产生 差错 或 请 求 ， 它 代表 
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其 他 协议 格式 化 并 发 送 报 文 。ICMP 传 递 到 达 的 差错 ， 并 向 适当 的 传输 协议 或 等 待 ICMP 报 文 
的 进程 发 出 回答 。 另 一 方面 ，ICMP 用 一 个 合适 的 ICMP 回 答 响应 大 多 数 ICMP 请 求 。 图 11-4 对 
此 做 了 总 结 。 


ET [iew.imut | UDP | 
ICMP ECHOREPLY rip. input 
ICMP TSTAMPREPLY rip input 
ICMP MASKREPLY rip. input 











ICMP, IREQ rip input 
ICMP IREQREPLY rip. input 


ICMP ROUTERADVERT rip, input 
ICMP ROUTERSOLICIT rip input 


ICMP REDIRECT 

























































ICMP REDIRECT NET pfctlinput in rtchange | in rtchange 
ICMP REDIRECT HOST pfctlinput in rtchange | in rtchange 
ICMP REDIRECT TOSNET pfctlinput in rtchange | in rtchange 
ICMP REDIRECT TOSHOST pfctlinput in rtchange | in rtchange 


其 他 


ICMP UNREACH 
ICMP UNREACH NET 


rip input 












































pr ctlinput udp notify tcp notify EHOSTUNREACH 
















ICMP UNREACH HOST br .ctlinput udp. notify tcp notify EHOSTUNREACH 
ICMP. UNREACH PROTOCOL pr. ctlinput udp. notify tcp, notify ECONNREFUSED 
ICMP UNREACH PORT pr ctlinput udp. notify tcp notify | ECONNREFUSED 
ICMP UNREACH SRCFAIL pr.ctlinput udp. notify tcp. notify EHOSTUNREACH 
















ICMP UNREACH NEEDFRAG pr. ctlinput udp. notify tcp. notify EMSGSIZE 

ICMP UNREACH NET UNKNOWN pr ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH HOST UNKNOWN | pr ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH ISOLATED pr ctlinput udp notify tcp. notify EHOSTUNREACH 





ICMP UNREACH NET PROHIB pr ctlinput udp notify tcp. notify EHOSTUNREACH 














EHOSTUNREACH 





ICMP UNREACH HOST PROHIB pr. ctlinput udp notify tcp. notify 























EHOSTUNREACH 
EHOSTUNREACH 






tcp. notify 
tcp notify 


udp notify 
udp. notify 


pr. ctlinput 
pr. ctlinput 
rip input 


ICMP UNREACH TOSNET 
ICMP UNREACH TOSHOST 
43 


























14 
15 
其 他 
ICMP. TIMXCEED 
ICMP TIMXCEED .INTRANS 
ICMP TIMXCEED REASS 
其 他 
ICMP PARAMPROB 
0 


rip input 
rip input 
rip input 




















tcp notify 
tcp. notify 


udp notify 
udp. notify 


BE ctlinput 
pr ctlinput 
rip input 






















ENOPROTOOPT 
ENOPROTOOPT 


tcp notify 
tcp notify 


udp. notify 
udp notify 


pr ctlinput 
ICMP PARAMPROB OPTABSENT pr ctlinput 
其 他 rip input 
IcWe SOURCEQUENCH | pr-ctlimput | uap notify | tep-muench | 


图 11-2 ICMP 报 文 类 型 和 代码 ( 续 ) 
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icmp reflect | 为 ICMP 生 成 回答 
in rtchange 更 新 IP 路 由 表 
pfctlinput 向 所 有 协议 报告 差错 


pr ctlinput | 向 与 插口 有 关 的 协议 报告 差错 
rip input 进程 不 识别 的 ICMP 报 文 

tcp notify 向 进程 报告 差错 或 忽略 

tcp quench 放 慢 输出 

udp notify 向 进程 报告 差错 


图 11-3 ICMP 输 入 处 理 时 调用 的 函数 





ICMP 报 文 类 型 


请 求 向 ICMP 请 求生 成 回答 | 由 某 个 进程 生成 
回答 传 给 原始 IP 由 内 核 生 成 

差错 传 给 传输 协议 和 原始 IP | 由 IP 或 传输 协议 生成 
未 知 传 给 原始 IP 由 某 个 进程 生成 


图 11-4 ICMP 报 文 处 理 





11.2 代码 介绍 
图 11-5 的 两 个 文件 中 有 本 童 讨论 的 ICMP 数 据 结构 、 统 计量 和 处 理 的 程序 。 


fü $ 





netinet/ip icmp.h ICMP 结 构 定 义 
netinet/ip icmp.c ICMP 处 理 


图 11-5 本 章 定义 的 文件 


11.2.1 全 局 变量 
本 章 介 绍 的 全 局 变量 如 图 11-6 所 示 。 


| int | 使 MP 地 址 掩 码 回答 的 返回 有 效 回 有 效 
icmpstat struct icmpstat | ICMP 统 计量 (图 11-7) 


图 11-6 本 章 介 绍 的 全 局 变量 









11.2.2 统计 量 
统计 量 是 由 图 11-7 所 示 的 icmpstat 结 构 的 成 员 收集 的 。 


| tope eldiemp |  WDUBGRHUE UFICMPHOCIE SEUJERENE 
icps oldshort | 因为 IP 数 据 报 太 短 而 丢弃 的 差错 数 





图 11-7 本 章 收 集 的 统计 信息 
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icmpstatJk b H8 Jj SNMP 使 用 的 


icps badcode 由 于 无 效 码 而 丢弃 的 ICMP 报 文 数 
icps badlen 由 于 无 效 的 ICMP 体 而 丢弃 的 ICMP 报 文 数 
icps checksum 由 于 坏 的 ICMP 检 验 和 而 丢弃 的 ICMP 报 文 数 


icps tooshort | 由 于 ICMP 首 部 太 短 而 丢弃 的 报 文 数 
icps outhist[] | 输出 计数 器 数组 ;每 种 ICMP 类 型 对 应 一 个 
icps inhist[] | 输入 计数 器 数组 ;每 种 ICMP 类 型 对 应 一 个 


icps error icmp_error 的 调用 ( 重 定向 除外 ) 数 
icps reflect 内 核 反 映 的 ICMP 报 文 数 


图 11-7 (fx) 





在 分 析 程 序 时 ， 我 们 会 看 到 计数 器 是 递增 的 。 
图 11-8 显 示 的 是 执行 aetstat -s 命 令 输出 的 统计 信息 的 例子 


netstat -s 输出 icmpstat 成 员 
———M!—— —i—— Ua áÁ—— ———— ÉÓM E cs lu NONE 


84124 calls to icmp error icps, error 

0 errors not generated 'cuz old message was icmp | icps oldicmp 

Output histogram: icps. outhist[(] 
echo reply: 11770 ICMP ECHOREPLY 
destination unreachable: 84118 ICMP UNREACH 
time exceeded: 6 ICMP. TIMXCEED 

6 messages with bad code fields icps, badcode 

0 messages « minimum length icps. badlen 

0 bad checksums icps. checksum 

143 messages with bad length icps tooshort 

Input histogram: icps inhist[] 
echo reply: 793 ICMP  ECHOREPLY 
destination unreachable: 305869 ICMP UNREACH 
source quench: 621 ICMP SOURCEQUENCH 
routing redirect: 103 ICMP REDIRECT 
echo: 11770 ICMP ECHO 
time exceeded: 25296 ICMP TIMXCEED 

11770 message responses generated icps. reflect 































































图 11-8 ICMP 统 计 信 息 示 例 


11.2.3 SNMP 变 量 


图 11-9 显 示 了 SNMP ICMP 组 的 变量 与 Net/3 收 集 的 统计 量 之 间 的 关系 。 


E MENENGI DOSE GINDNMMNMNGE ME 


icmpInErrors icps. badcode + 
icps. badlen + 
icps. checksum + 
icps tooshort 






















收 到 的 ICMP 报 文 数 
由 于 错误 丢弃 的 ICMP 报 文 数 





icmpInDestUnreachs 
icmpInTimeExcds 
icmpInParmProbs 
icmpInSrcQuenchs 
icmpInRedirects 
icmpInEchos 



















icps inhist[] 计数 器 每 一 类 收 到 的 ICMP 报 文 数 


图 11-9 ICMP 组 内 的 和 催 单 SNMP 变 量 
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icmpInTimestamps 

ire Peas 由 于 一 个 错误 而 没有 发 送 的 ICMP 错 误 数 
icmpOutSrcQuenchs 
icmpOutTimestamps 


icmpInTimestampReps 
icmpOutDestUnreachs 
icmpOutRedirects 
icmpOutTimestampReps 


| SNMPER | icmpstat 成 员 | 描述 | 
icmpInAddrMasks 
icmpOutTimeExcds 
icmpOutEchos icps outhist[] 计数 器 每 一 类 发 送 的 ICMP 报 文 数 
icmpOutAddrMasks 


|icmpInEchoReps | 
icmpInAddrMaskReps 
icmpOutParmProbs 
icmpOutEchoReps 
icmpOutAddrMaskReps 








图 11-9 (fx) 


icmpInMsgs 是 icps_inhist 数 组 和 icmpInErzozrs 中 的 计数 之 和 ，icmpOoutMsgs 
是 icps_outist 数 组 和 icmpOoutErzrors 中 的 计数 之 和 。 


11.3 icmp 结 构 


Net3 通 过 图 11-10 中 的 icmp 结 构 访 占 基 个 ICMP 报 文 。 
42-45 icmp_type 标 识 特定 报 文 ，icmp_code 进 一 步 指定 该 报 文 (图 11-1 的 第 1 栏 )。 计 算 
icmp_cksum 的 算法 与 卫 首 部 检验 和 相同 ， 保 护 整 个 ICMP 报 文 ( 像 耻 一 样 ， 不 仅仅 保护 首部 )。 
46-79 联合 icmp_hun( 首 部 联合 ) 和 icmp_dun( 数 据 联合 ) 按 照 icmp_ type 和 icmp_code 访 问 多 种 KCMP 
报 文 。 每 种 ICMP 报 文 都 使 用 icmp_hun， 只 有 一 部 分 报 文 用 icmp_dun。 没 有 使 用 的 字段 必须 设置 为 0。 
80-86 我 们 已 经 看 到 ， 利 用 其 他 租 套 的 结构 (例如 mbuf、le_softc 和 ether_arp)， 
#define 宏 可 以 简化 对 结构 成 员 的 访问 。 

图 11-11 显 示 了 ICMP 报 文 的 整体 结构 ， 并 再 次 强调 ICMP 报 文 是 封装 在 IP 数 据 报 里 的 。 我 
们 将 在 分 析 程 序 时 ， 分 析 所 遇 报 文 的 特定 结构 。 





42 struct icmp + pimpa 
43 u_char icmp_type; /* type of message, see below */ 

44 u_char icmp_code; /* type sub code */ 

45 u short icmp cksum; /* ones complement cksum of struct */ 
46 union ( 

47 u.char ih pptr; /* ICMP, PARAMPROB */ 

48 struct in_addr ih gwaddr; /* ICMP REDIRECT */ 

49 struct ih idseq ( 

50 n short icd id; 

SI n_short icd_seq; 

52 } ih_idseq; 

53 int ih_void; 

54 /* ICMP_UNREACH_NEEDFRAG -- Path MTU Discovery (RFC1191) */ 
55 struct ih pmtu ( 


图 11-10 icmp 结 构 
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56 n short ipm void; 
57 n short ipm nextmtu; 
58 ) ih pmtu; 
59 ) icmp hun; 
60 #define icmp pptr cmp hun.ih, pptr 
61 #define icmp gwaddr icmp hun.ih gwaddr 
62 #define icmp id icmp hun.ih, idseq.icd id 
63 #define icmp. seq icmp hun.ih, idseq.icd seq 
64 #define icmp void icmp. hun.ih, void 
65 #define icmp pmvoid icmp hun.ih, pmtu.ipm void 
66 4$define icmp  nextmtu icmp  hun.ih, pmtu.ipm nextmtu 
67 union { 
68 struct id ts { 
69 n time its otime; 
70 n time its rtime; 
71 n time its ttime; 
72 ) id ts; 
73 struct id ip { 
74 struct ip idi ip; 
75 /* options and then 64 bits of data */ 
76 ) id ip; 
77 u long id mask; 
78 char id data[1]; 
79 ) icmp dun; 
80 4$define icmp otime  icmp dun.id ts.its otime 
81 #define icmp rtime  icmp dun.id ts.its rtime 
82 4&define icmp ttime  icmp dun.id ts.its ttime 
83 #define icmp ip icmp dun.id ip.idi ip 
84 #define icmp mask icmp dun.id mask 
85 #define icmp data icmp dun.id data 
86 ); n 
ip icmp.h 
图 11-10 (£x) 
m 


一 


11.4 


inetsw[4] (图 11-13) 的 protosw 结 
图 11-12 显 示 了 该 结构 。 在 内 核 里 ， 


ICMP 的 protosw 结 


IP 数 据 报 一 一 一 一 一 一 一 一 一 一 一 一 一 一 和 | 


图 11-11 0 


构 


? 9» LI 


构 描述 了 ICMP， 并 支持 内 核 和 进程 对 协议 的 访问 。 
icmp_input 处 理 到 达 的 ICMP 报 文 ， 进 程 产生 的 外 出 


ICMP 报 文 由 rip_output 处 理 。 以 rip_ 开 头 的 三 个 函数 将 在 第 32 章 中 讨论 。 


inetsw[4] 


pr type 
pr domain 


ICMP 提 供 原 始 分 组 服务 
ICMP 是 Internet 域 的 一 部 分 


SOCK RAW 


&inetdomain 





[11-12 ICMP 的 inetsw 项 
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pr_protocol 
pr_flags 
pr_input 

pr output 
pr ctlinput 0 
pr ectloutput 
pr usrreq 
pr init 

pr fasttimo 
pr slowtimo 
pr drain 


pr sysctl 





IPPROTO ICMP (1) 
PR ATOMIC|PR ADDR 


icmp input 


rip output 


rip ctloutput 


rip usrreq 





图 11-12 (5) 


出 现在 IP 首 部 的 ip_p 字 段 中 
插口 层 标志 ，ICMP 不 使 用 

从 IP 层 接收 ICMP 报 文 

将 ICMP 报 文 发 送 到 IP 层 
ICMP 不 使 用 

响应 来 自 一 个 进程 的 管理 请 求 
响应 来 自 一 个 进程 的 通信 请 求 
ICMP 不 使 用 

ICMP 不 使 用 

ICMP 不 使 用 

ICMP 不 使 用 

ICMP 不 使 用 


inetsw[]: 


, MEER 
a 


图 11-13 数值 为 1 的 jp_p 选 择 f inetsw[4] 


11.5 输入 处 理 : icmp input% 


回想 起 ijpintr 对 数据 报 进 行 分 用 是 根据 IP 首 部 中 的 传输 协议 编号 ijp_p。 对 于 ICMP 报 文 ， 
ip p 是 1， 并 通过 ip protoxxtf£inetsw[4]., 


当 一 个 ICMP 报 文 到 达 时 ， 了 P 
层 通 过 inetsw[4] 的 pr input 
国 数 ， 间 接 调 用 icmp input 
(图 10-11) 。 

我 们 将 看 到 ， 在 icmp_- 
input 中 ， 每 一 个 ICMP 报 文 要 
被 处 理 3 次 : fÉicmp input 
处 理 一 次 ， 被 与 ICMP 差 错 报 文 
中 的 IP 分 组 相关 联 的 传输 协议 
处 理 一 次 ， 被 记录 收 到 ICMP 报 
文 的 进程 处 理 一 次 。ICMP 输 入 
处 理 过 程 的 总 的 构成 情况 如 图 
11-14 所 示 。 


传输 协议 





(图 11-29) 


图 11-14 ICMP 的 输入 处 理 过 程 
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S RÉEDA P575(11.6— 11.10)5fiE£icmp input: (1) 验证 收 到 的 报 文 ， (2) ICMP 差 错 
JRX; (3) ICMP 请 求 报 文 ，(4) ICMP 重 定向 报 文 ，(5) ICMP 回 答 报 文 。icmp_input 国 数 的 
第 一 部 分 如 图 11-15 所 示 。 





tp_icmp.c 
131 static struct sockaddr in icmpsrc = { sizeof (struct sockaddr in), AF_INET ); 
132 static struct sockaddr in icmpdst = { sizeof (struct sockaddr in), AF INET ); 
133 static struct sockaddr in icmpgw = { sizeof (struct sockaddr in), AF INET ); 
134 struct sockaddr in icmpmask - ( 8, 0 ); 


135 void 
136 icmp input(m, hlen) 
137 struct mbuf *m; 


138 int hlen; 

139 ( 

140 struct icmp *icp; 

141 struct ip *ip - mtod(m, struct ip *); 

142 int icmplen = ip-»ip len; 

143 int i; 

144 struct in ifaddr *ià; 

145 void (*ctlfunc) (int, struct sockaddr *, struct ip *); 
146 int code; 

147 extern u_char ip protoxí[]; 

148 /* 

149 * Locate icmp structure in mbuf, and check 
150 * that not corrupted and of at least minimum length. 
151 *j 

152 if (icmplen < ICMP MINLEN) { 

153 icmpstat.icps tooshort-e-*; 

154 goto freeit; 

155 } 

156 i = hlen + min(icmplen, ICMP ADVLENMIN); 
157 if (m-»m len < i && (m = m pullup(m, i)) == 0) ( 
158 icmpstat.icps tooshort-e-«; 

159 return; 

160 ) 

161 ip - mtod(m, struct ip *); 

162 m-»m len -- hlen; 

163 m-»m data += hlen; 

164 icp = mtod(m, struct icmp *); 

165 if (in cksum(m, icmplen)) ( 

166 icmpstat.icps, checksum--; 

167 goto freeit; 

168 ) 

169 m-»m len += hlen; 

170 m-»m data -- hlen; 

igl if (icp->icmp_type > ICMP_MAXTYPE) 

TTA goto raw; 

173 icmpstat.icps. inhist[icp-»icmp type]-«-; 

174 code - icp-»icmp code; 

175 switch (icp-»icmp type) ( 





11-15 icmp _ input 负数 
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317 default: 

318 break; 
319 ) 

320 raw: 

321 rip input (m); 
322 return; 


323 freeit: 





324 m freem(m); 
325 ) 
ip icmp.c 
11-15 (£x) 
1. 静态 结构 


131-134 因为 icmp_input 是 在 中 断 时 调用 的 ， 此 时 堆栈 的 大 小 是 有 限 的 。 所 以 ， 为 了 在 
每 次 调用 icmp_input 时 ， 避 免 动态 分 配 造成 的 延迟 ， 以 及 使 堆栈 最 小 ， 这 4 个 结构 是 动态 分 
配 的 。icmp_input 把 这 4 个 结构 用 作 临 时 变量 。 
icmpsrc 的 命名 容易 引起 误解 ， 为 icmp input 把 它 用 作 临 时 

sockaddr in 变量 ， 而 它 也 从 未 包含 过 源 站 地 址 。 在 Net/2 版 本 的 icmp_input 中 ， 

在 报 文 被 faw_input 函 数 提交 给 原始 IP 之 前 ， 报 文 的 源 站 地 址 在 函数 的 最 后 被 复制 

到 icmpsrc 中 。 而 Net/3 调 用 只 需要 一 个 指向 该 分 组 的 指针 的 rip input， 而 不 是 

raw input。 虽 然 有 这 个 改变 ,但 是 icmpsrc 仍 然 保 留 了 在 Net/2 中 的 名 字 ，。 

2. 确认 报 文 
135-139 icmp_input 希 望 收 到 的 ICMP 报 文 (m) 中 含有 一 个 指 疝 该 数据 报 的 指针 ， 以 及 该 
数据 报 IP 首 部 的 字 节 长 度 hlen)。 图 11-16 列 出 了 几 个 在 icmp_input 里 用 于 向 化 检测 无 效 
ICMP 报 文 的 常量 。 


ICMP MINLEN ICMP 报 文大 小 的 最 小 值 
ICMP TSLEN ICMP 时 间 惟 报 文大 小 


ICMP MASKLEN ICMP 地 址 掩 码 报 文大 小 
ICMP ADVLENMIN ICMP 差 错 ( 建 议 ) 报 文大 小 的 最 小 值 
(IP + ICMP + BADIP = 20 + 8 + 8 = 36) 
ICMP_ADVLEN (p) 36 + optsize ICMP 差 错 报 文 的 大 小 ， 包 含 无 效 分 组 p 的 IP 选 项 的 optsize 字 节 


图 11-16 ICMP 引 用 的 用 来 验证 报 文 的 常量 





140-160 icmp input 从 ip len 取出 ICMP 报 文 的 大 小 ， 并 把 它 存放 在 icmplen 中 。 第 8 
章 讲 过 ，ipintr 从 ip_len 中 排除 了 IP 首 部 的 长 度 。 如 果 报 文 长 度 太 短 ， 不 是 有 效 报 文 ， 就 
生成 icps_tooshort， 并 丢弃 该 报 文 。 如 果 在 第 一 个 mbuf 中 ，ICMP 首部 和 IP 首 部 不 是 连 
续 的 ， 则 Him pullupf&iEICMP 首部 以 及 封闭 的 IP 分 组 的 IP 首 部 在 同一 个 mbuf 中 。 

3. 验证 检验 和 
161-170 icmp input 隐 藏 mbuf 中 的 IP 首 部 ， 并 用 in_cksum 验 证 ICMP 的 检验 和 。 如 果 
报 文 被 破坏 ， 就 增加 icps_checksum， 并 丢弃 该 报 文 。 

4. 验证 类 型 
171-175 如 果 报 文 类 型 (icmp_type) 不 在 识别 范围 内 ，icmp_input 就 跳 过 switch 执 行 
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raw 语 句 ( 图 11-9)。 如 果 在 识别 范围 内 ，icmp input/iilicmp code, switch 按照 
icmp_type 处 理 该 报 文 。 

在 ICMP switch 语 句 处 理 完 后 ，icmp input 向 xip_input 发 送 ICMP 报 文 ， 后 者 把 
ICMP 报 文 发 布 给 准备 接收 的 进程 。 只 有 那些 被 破坏 的 报 文 (长 度 或 检验 和 出 错 ) 以 及 只 由 内 核 
处 理 的 ICMP 请 求 报 文才 不 传 给 rip_input。 在 这 两 种 情况 下 ，icmp_input 都 立即 返回 ， 
并 跳 过 raw 处 的 源 程序 。 

5. 原始 I1CMP 输 入 
317-325 icmp input 把 到 达 的 报 文 传 给 rip_input，rip_input 依 据 报 文 里 伟 有 的 协 
议 及 源 站 和 目的 站 地 址 信息 (32 章 )， 把 报 文 发 布 给 正在 监听 的 进程 。 

原始 IP 机 制 允 许 进 程 直 接 发 送 和 接收 ICMP 报 文 ， 这 样 做 有 几 个 原因 : 

。 新 ICMP 报 文 可 由 进程 处 理 而 无 须 修 改 内核 ( 例 如 ， 路 由 器 通告 ， 图 11-28)。 

。 可 以 用 进程 而 无 须 用 内 核 模块 来 实现 发 送 ICMP 请 求 和 处 理 回 答 的 机 制 (ping 和 

traceroute), 

。 进 程 可 以 增加 对 报 文 的 内 核 处 理 。 与 此 类 似 ， 内 核 在 更 新 完 它 的 路 由 表 后 ， 会 把 ICMP 

重 定向 报 文 传 给 一 个 路 由 守护 程序 。 


11.06 差错 处 理 


我 们 首先 考虑 ICMP 差 错 报 文 。 当 主机 发 出 的 数据 报 无 法 成 功 地 提交 给 目的 主机 时 ， 它 就 
接收 这 些 报 文 。 目 的 主机 或 中 间 的 路 由 器 生成 这 些 报 文 ， 并 将 它们 返回 到 原来 的 系统 。 图 11-17 
显示 了 多 种 ICMP 差 错 报 文 的 格式 。 












ype| len Cksum ; 
M 必须 是 0) 被 破坏 分 组 的 IP 首 部 
4 字 节 
pmvoid ip 
à type| len Cksum tmt A 
a a on| 9 | uno [Utm | ooo wants 
2 字 布 27r 
_ |type] 1 k t " "à 
参数 问题 ni 被 破坏 分 组 的 IP 首 部 
l l 2 字 市 3 字 市 8 字 市 


图 11-17 ICMP 差 错 报 文 (省 略 ijcmp_) 
图 11-18 中 的 源 程 序 来 自 图 11-15 中 的 switch 语 句 。 


ip_icmp.c 
176 case ICMP UNREACH: 
177 switch (code) ( 
178 case ICMP UNREACH NET: 
179 case ICMP UNREACH HOST: 
180 case ICMP UNREACH PROTOCOL: 
181 case ICMP UNREACH PORT: 
182 case ICMP UNREACH SRCFAIL: 
183 code += PRC UNREACH, NET; 
184 break; 
185 case ICMP UNREACH NEEDFRAG: 


图 11-18 icmp input Kğ: 差错 报 文 
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186 
187 
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196 
197 
198 


199 
200 
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208 
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213 
214 
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216 


217 
218 
219 
220 
221 
222 
223 
224 
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226 
227 
228 
229 
230 
231 


232 
233 
234 


176-216 对 ICMP 差 错 的 处 理 是 最 少 的 ， 因 为 这 主要 是 运输 层 协议 的 责任 。imcp_input 把 
icmp_type 和 icmp_codqe 上 映射 到 一 个 与 协议 无 关 的 差错 码 集 上 ， 该 差错 码 是 由 PRC_ 和 销量 
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code = PRC_MSGSIZE; 
break; 


case ICMP UNREACH NET UNKNOWN: 
case ICMP UNREACH NET PROHIB: 
case ICMP UNREACH TOSNET: 
code = PRC, UNREACH, NET; 
break; 


case ICMP UNREACH HOST UNKNOWN: 
case ICMP UNREACH ISOLATED: 
case ICMP UNREACH HOST PROHIB: 
case ICMP UNREACH TOSHOST: 
code = PRC, UNREACH, HOST; 
break; 


default: 
goto badcode; 
) 


goto deliver; 


case ICMP TIMXCEED: 
if (code » 1) 
goto badcode; 
code «- PRC TIMXCEED INTRANS; 
goto deliver; 
case ICMP PARAMPROB: 
if icode > i) 
goto badcode; 
code - PRC, PARAMPROB; 
goto deliver; 


case ICMP. SOURCEQUENCH: 
if (code) 
goto badcode; 
code - PRC, QUENCH; 


deliver: 
/* 
* Problem with datagram; advise higher level routines. 
» 
if (icmplen < ICMP ADVLENMIN || icmplen < ICMP ADVLEN(icp) |l 
icp-»icmp ip.ip hl « (sizeof(struct ip) »» 2)) ( 
icmpstat.icps, badlen-«*; 
goto freeit; 
) 
NTOHS (icp-»icmp ip.ip len); 
icmpsrc.sin addr - icp-»icmp ip.ip dst; 
if (ctlfunc = inetsw[ip protox[icp-»icmp ip.ip p]].pr ctlinput) 
(*ctlfunc) (code, (struct sockaddr *) &icmpsrc, 
&icp-»icmp. ip); 
break; 


badcode: 
icmpstat.icps. badcode--*; 
break; 


ip icmp.c 


图 11-18 (£x) 
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(图 11-19) 表 示 的 。PRC_ 和 销量 有 一 个 隐 含 的 顺序 ， 正 好 与 ICMP 的 codqe 相 对 应 。 这 就 解释 了 为 
什么 codae 是 按 一 个 PRC_ 和 贡 量 递增 的 。 

217-225 如 果 识 别 出 类 型 和 码 ，icmp input 就 跳 到 deliver。 如 果 没 有 识别 出 来 ， 
icmp input 就 跳 到 badcode。 

如 果 对 所 报告 的 差错 而 言 ， 报 文 长 度 不 正确 ，icps_badlen 的 值 就 加 1， 并 丢弃 该 报 文 。 
Net/3 总 是 丢弃 无 效 的 ICMP 报 文 ， 也 不 生成 有 关 该 无 效 报 文 的 ICMP 差 错 。 这 样 ， 就 避免 在 两 
个 有 缺陷 的 实现 之 间 形 成 无 限 的 差错 报 文 序列 。 

226-231 icmp_input 调 用 运输 层 协议 的 pr_ct1linput 国 数 ， 该 国 数 根据 原始 数据 报 的 
ip_p， 把 到 达 分 组 分 用 到 正确 的 协议 ， 从 而 构造 出 原始 的 IP 数 据 报 。 差 错 码 (code)、 原 始 IP 
数据 报 的 目的 地 址 (icmpsrc) 以 及 一 个 指向 无 效 数据 报 的 指针 (icmp_ip) 被 传 给 
pr_ctlinput( 如 果 是 为 该 协议 定义 的 )。 图 23-31 和 图 27-12 讨 论 这 些 差错 。 
232-234 最 后 ，icps badcode 的 值 增加 1， 并 终止 switch 语 句 的 执行 。 


PRC HOSTDEAD 

PRC IFDOWN 

PRC MSGSIZE 

PRC PRRAMPROB 

PRC QUENCH 

PRC QUENCH2 

PRC REDIRECT HOST 
PRC REDIRECT NET 

PRC REDIRECT TOSHOST 
PRC REDIRECT TOSNET 


主机 似乎 已 关闭 

网 络 接口 关闭 

无 效 报 文 大 小 
首部 不 正确 

某 人 说 要 放 慢 
阻塞 比特 要 求 放 慢 
主机 路 由 选择 重 定 办 
网 络 路 由 选择 重 定 回 
TOS 和 主机 的 重 定向 
TOS 和 网 络 的 重 定向 


PRC ROUTEDEAD 

PRC TIMXCEED INTRANS 
PRC TIMXCEED REASS 
PRC UNREACH HOST 
PRC UNREACH NET 

PRC UNREACH PORT 
PRC UNREACH PROTOCOL 
PRC UNREACH SRCFAIL 





如 采 可 能 ， 选 择 新 的 路 由 
传送 过 程 中 分 组 生命 期 到 期 
分 片 在 重 效 过 程 中 生命 期 到 期 
没有 到 主机 的 路 由 
没有 到 网 络 的 路 由 

目的 主机 称 端口 未 激活 

目的 主机 称 协议 不 可 用 
源 路 由 失败 


图 11-19 与 协议 无 关 的 差错 码 


尽管 PRC 常量 表面 上 与 协议 无 关 ， 但 它们 主要 还 是 基于 Internet 协 议 族 。 其 结果 
是 ， 当 某 个 Internet 协 议 族 以 外 的 协议 把 自己 的 差错 映射 到 PRC 常量 时 ,会 失去 可 指 


定性 。 


11.7 AKANE 


Net3 啊 应 具有 正确 格式 的 ICMP 请 求 报 文 ， 但 把 无 效 ICMP 请 求 报 文 传 给 zip_input。 第 


32 章 讨论 了 应 用 程序 如 何 生成 ICMP 请 求 报 文 。 


除 路 由 絮 通 告 报 文 外 ， 大 多 数 Net/3 所 接收 的 ICMP 请 求 报 文 都 生成 回答 报 文 。 为 避免 为 回 
党 报 文 分 配 新 的 mbuf，icmp_input 把 请 求 的 缓存 转换 成 回答 的 缓存 ， 并 返回 给 发 送 方 。 我 
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们 将 分 别 讨 论 各 个 请 求 。 
11.7.1 回 显 询 问 : ICMP ECHO 和 ICMP ECHOREPLY 


尽管 ICMP 非 常 简 单 ， 但 是 ICMP 回 显 请 求 和 回答 却 是 网 络 管理 员 最 有 力 的 诊断 工具 。 发 
出 ICMP 回 显 请 求 称 为 “ping” 一 个 主机 ， 也 就 是 调用 ping 程 序 一 次 。 许 多 系统 提供 该 程序 
来 手工 发 送 ICMP 回 显 请 求 。 卷 1 的 第 7 章 详细 讨论 了 ping。 

ping 程 序 的 名 字 依 照 了 声呐 脉冲 (soar ping)， 用 其 他 物体 对 声呐 脉冲 的 反射 所 产生 的 回 
声 确定 它们 的 位 置 。 卷 1 把 这 个 名 字 解 释 成 Packet InterNet Groper， 是 不 正确 的 。 

图 11-20 是 ICMP 回 显 请 求 和 回答 报 文 的 结构 。 
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icmp type 
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ICMP ECHOREPLY 检验 和 
icmp. id icmp. seq 
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icmp_data[] 


可 选 数据 
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图 11-20 ICMP 回 显 请 求 和 回答 


icmp_code 总 是 0。 icmp_id 和 icmp_seq 设 置 成 请 求 的 发 送 方 ， 回 答 中 也 不 做 修改 。 
源 系统 可 以 用 这 些 字段 匹配 请 求 和 回答 。icmp_dqata 中 到 达 的 所 有 数据 也 被 反射 。 图 11-21 
征 ICMP 回 显 处 理 和 icmp_input 实 现 反 射 ICMP 请 求 的 源 程 序 。 


ip icmp.c 
435 case ICMP ECHO: 
236 icp-»icmp type = ICMP ECHOREPLY; 
237 goto reflect; 
/* other ICMP request processing */ 
217 reflect: 
278 ip-»ip len += hlen; /* since ip input deducts this */ 
279 icmpstat.icps reflect-«-; 
280 icmpstat.icps outhist[icp-»icmp type]-«-«; 
281 icmp reflect (m); 
282 return; - 
ip icmp.c 


图 11-21 icmp inputrAZk: 回 显 请 求 和 回答 


235-237 通过 把 icmp type 变 成 ICMP_ ECHOREPLY， 并 跳 转 到 zxeflect 发 送 回答 ， 
icmp_input 把 回 显 请 求 转换 成 了 回 显 回答 。 

277-282 在 为 每 个 ICMP 请 求 构 造 完 回答 之 后 ，icmp_input 执 行 Teflect 处 的 程序 。 在 
这 里 ， 存 储 数 据 报 正确 的 长 度 被 恢复 ,在 icps_reflect 和 icps _ outhist[] 中 分 别 计算 
请 求 的 数量 和 ICMP 报 文 的 类 型 。icps reflect (11.12%) 把 回答 发 回 给 请 求 方 。 
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11.7.2 时 间 戳 询问: ICMP TSTAMP 和 ICMP TSTAMPREPLY 


ICMP 时 间 惟 报 文 如 图 11-22 所 示 。 
0 7 8 15 16 


ICMP TSTAMP 检验 和 
ICMP TSTAMPREPLY 
E icmp seq 
序号 
icmp otime 
32r Ji ET [8] Ek 
icmp rtime 
32/pr MAC ET [Rr] ER 
| icmp ttime 
324r fE I EST [n] X 
图 11-22 ICMP 时 间 恰 请求 和 回答 


icmp_code 总 十 0。icmp_id 和 icmp_seg 的 作用 与 它们 在 ICMP 回 显 报 文 中 的 一 样 。 请 
求 的 发 送 方 设置 cmp_otime (发 出 请 求 的 时 间 ) ; icmp_rtime ( 收 到 请 求 的 时 间 ) 和 
icmp ttime (发 出 回答 的 时 间 ) 由 回答 的 发 送 方 设置 。 所 有 时 间 都 是 从 UTC 午 夜 开始 的 毫 
秒 数 。 如 果 时 间 值 没有 以 标准 单位 记录 ， 就 把 高 位 置 位 ， 与 IP 时 间 戳 选项 一 样 。 

图 11-23 是 实现 时 间 改 报 文 的 程序 。 














ip icmp.c 
238 case ICMP TSTAMP: 
239 if (icmplen < ICMP TSLEN) { 
240 icmpstat.icps badlen-«-«; 
241 break; 
242 } 
243 icp-»icmp type = ICMP TSTAMPREPLY; 
244 icp-»icmp rtime = iptime(); 
245 icp-»icmp ttime = icp-»icmp rtime;  /* bogus, do later! */ 
246 goto reflect; "- 
ip icmp.c 





图 11-23 icmp inputrFAZ&: 时 间 惟 请 求 和 回答 


238-246 icmp_input 对 ICMP 的 啊 应 ， 包 括 : 把 icmp type 改 成 ICMP TSTAMPREPLY, 
记录 当前 icmp_rtime 和 icmp ttime， 并 跳 转 到 reflect 发 送 回答 

很 难 精 确 地 设置 icmp_rtime 和 icmp_ttime。 当 系统 执 4 SABU 时 ， 报 文 可 能 已 经 在 IP 
输入 队列 中 等 待 处 理 ， 这 时 设置 icmp_rtime 已 经 太 晚 了 。 类 似 地 ， 数 据 报 也 可 能 在 要 求 处 理 时 
在 网 络 接 口 的 传输 队列 中 被 延迟 ， 这 时 设置 cmp ttime 又 太 早 了 。 为 了 把 时 间 惟 设置 得 更 接近 
真实 的 接收 和 发 送 时 间 ， 必 须 修改 每 个 网 络 的 接口 驱动 程序 ， 使 其 能 理解 ICMP 报 文 (习题 11.8)。 


11.7.3 地址 掩 码 询问 : ICMP MASKREQ 和 ICMP MASKREPLY 


ICMP 地 址 掩 码 请 求 和 回答 如 图 11-24 所 示 。 
RFC 950 [Mogul 和 Postel 1985] 在 原来 的 ICMP 规 范 说 明 中 增加 了 地 址 掩 码 报 文 ， 使 系统 能 
现 菜 个 网 络 上 使 用 的 子 网 掩 码 。 
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除非 系统 被 明确 地 配置 成 地 址 掩 码 的 授权 代理 ， 否 则 ，REFC 1122 禁 止 向 其 发 送 掩 码 回答 。 
这 样 ， 就 避免 系统 与 所 有 回 它 发 出 请 求 的 系统 共享 不 正确 的 地 址 掩 码 。 如 果 没 有 管理 员 授 权 
回答 ， 系 统 也 要 忽略 地 址 掩 码 请 求 。 


0 





icmp type 
d icmp cksum 
ICMP MASKREQ sx odd " wee 
ICMP MASKREQREPLY ^ Jr TH 
icmp id icmp. seq 
标识 符 顺序 号 
icmp, mask 
32 位 子 网 掩 码 


78 15 16 31 









图 11-24 ICMP 地 址 掩 码 请 求 和 回答 


如 果 全 局 整数 icmpmaskrepl 非 零 ，Net/3 会 啊 应 地 址 掩 码 请 求 。icmpmaskrepl 的 默 
认 值 是 0，icmp_sysct1 可 以 通过 systct1(8) 程 序 (11.14 闻 ) 修 改 它 。 


Net/2 系 统 中 没有 控制 回答 地 址 掩 码 请 求 的 机 制 。 其 结果 是 ,必须 非 常 正确 地 配 


置 Net/2 接 口 的 地 址 掩 码 ; 该 信息 是 与 网 络 上 所 有 发 出 地 址 掩 码 请 求 的 系统 共享 的 。 
地 址 掩 码 报 文 的 处 理 如 图 11-25 所 示 。 
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ip icmp.c 


case ICMP MASKREQ: 
Kdefine satosin(sa) ((struct sockaddr. in *}) (sa)) 


if (icmpmaskrepl == 0) 
break; 
/* 
* We are not able to respond with all ones broadcast 
* unless we receive it over a point-to-point interface. 
"y 
if (icmplen « ICMP MASKLEN) 
break; 
switch (ip-»ip dst.s addr) ( 


case INADDR BROADCAST: 

case INADDR ANY: 
icmpdst.sin addr - ip-»ip src; 
break; 


default: 
icmpdst.sin addr - ip-»ip dst; 


ia = (struct in ifaddr *) ifaof ifpforaddr( 
(struct sockaddr *) &icmpdst, m-»m pkthdr.rcvif); 
tE Wia. ee DI 
break; 
icp-»icmp type = ICMP MASKREPLY; 
icp-»icmp. mask = ia-»ia sockmask.sin addr.s. addár; 
if (ip-»ip.src.s.addr == 0) ( 
if (ia-»ia ifp-»if flags & IFF BROADCAST) 
ip-»ip. src = satosin(&ia-»ia, broadaddr)-»sin addr; 
else if (ia-»ia ifp-»i£ flags & IFF POINTOPOINT) 
ip-»ip src = satosin(&ia-»1ia dstaddr)-»sin addr; 


ip icmp.c 


图 11-25 icmp inputt:KZk: 地 址 掩 码 请 求 和 回答 


£l1l3x ICMP.: Internet22?]dR xx kit 255 


247-256 如果 没有 配置 响应 掩 码 请 求 ， 或 者 该 请 求 太 短 ， 这 上 段 程 序 就 中 止 switch 的 执行 ， 
并 把 报 文 传 给 rip_input( 图 11:15)。 
在 这 里 Net/3 无 法 增加 icps badlen。 对 其 他 ICMP 长 度 差错 ， 它 却 增加 
icps badlen, 


1. AHT dir id 
257-267 如 果 地 址 掩 码 请 求 被 发 到 0.0.0.0 或 255.255.255.255， 源 地 址 被 保存 在 icmpdst 中 。 
在 这 里 ，ifaof offoraddr 把 icmpdst 作 为 源 站 地 址 ， 在 同一 网 络 上 查找 in_ofaddr 结 
构 。 如 果 源 站 地 址 是 0.0.0.0 或 255.255.255.255，ifaof offoraddr 返 回 一 个 指针 ， 该 指针 
指 癌 与 接收 接口 相关 的 党 一 个 IP 地 址 。 

default 情 况 (针对 单 播 或 有 向 广播 ) 为 faof_ifpforaddr 保 存 目 的 地 址 。 

2. 转换 成 回答 
269-270 通过 改变 ijcmp _ type， 并 把 所 选 子 网 掩 码 ia_sockmask 复 制 到 icmp_mask， 
就 完成 了 把 请 求 转换 成 回答 的 工作 。 

3. 选择 目的 地 址 
271-276 如 果 请 求 的 源 站 地 址 全 0(“ 该 网 络 上 的 这 台 主 机 ”， 只 在 引导 时 用 作 源 站 地 址 ， 
RFC 1122)， 并 且 源 站 不 知道 自己 的 地 址 ，Net/3 必 须 广播 这 个 回答 ， 使 源 站 系统 接收 到 这 个 
报 文 。 在 这 种 情况 下 ， 如 果 接 收 接口 位 于 某 个 广播 或 点 到 点 网 络 上 ,该 回答 的 目的 地 址 将 分 
别 是 ja broadaddr 和 ia dstaddr。icmp_input 把 回 和 从 的 目的 地 址 放 在 ijp_src 里 ， 因 
为 reflect 处 的 程序 (图 11-21) 会 把 源 站 和 目的 站 地 址 倒 过 来 。 不 改变 单 播 请 求 的 地 址 。 


11.7.4 信息 询问 : ICMP IREQ 和 ICMP IREQREPLY 


ICMP 信 息 报 文 已 经 过 时 了 。 它 们 企图 广播 一 个 源 和 目的 站 地 址 字段 的 网 络 部 分 为 全 0 的 
请 求 ， 使 系统 发 现 连接 的 IP 网 络 的 数量 。 响 应 该 请 求 的 主机 将 返回 一 个 填 好 网 络 号 的 报 文 。 
主机 还 需要 其 他 办 法 找到 地 址 的 主机 部 分 。 

RFC 1122 推 荐 主机 不 要 实现 ICMP 信 息 报 文 ， 因 为 RARP(RFC 903 [Finlayson et al., 
1984]) 和 BOOTP(RFC 951 [Croft 和 Gilmore 1985]) 更 适 于 发 现 地 址 。RFC 1541 [Droms 1993]fi& 
述 的 一 个 新 协议 ， 动 态 主 机 配置 协议 (Dynamic Host Configuration Protocol，DHCP)， 可 能 会 
取代 或 增强 BOOTP 的 功能 。 它 现在 是 一 个 建议 的 标准 。 


Net/2 响 应 ICMP 信 息 请 求 报 文 。 但 是 ，Net/3 把 它们 传 给 rip input, 


11.7.5 ”路 由 器 发 现 : ICMP ROUTERRADVERT 和 ICMP ROUTERSOLICIT 


RFC 1256 定义 了 ICMP 路 由 器 发 现 报 文 。Net/3 内 核 不 直接 处 理 这 些 报 文 ， 而 由 rip_input 
把 它们 传 给 一 个 用 户 级 守护 程序 ， 由 它 发 送 和 啊 应 这 种 报 文 。 
卷 1 的 9.6 市 讨论 了 这 种 报 文 的 设计 和 运行 。 


11.8 重 定 向 处 理 


图 11-26 显 示 了 ICMP 重 定 同 报 文 的 格式 。 
icmp input 中 要 讨论 的 最 后 一 个 case 是 ICMP_REDIRECT。 如 8.5 市 的 讨论 ， 当 分 组 
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被 发 给 错误 的 路 由 器 时 ， 产 生 重 定向 报 文 。 该 路 由 左 把 分 组 转发 给 正确 的 路 由 器 ， 并 发 回 一 
个 ICMP 重 定向 报 文 ， 系 统 把 信息 记 入 它 自 己 的 路 由 表 。 
0 7 8 15 16 31 


icmp type icmp. code icmp. cksum 
ICMP REDIRECT 0-3 检验 和 


icmp gwaddr 


DC ER EH ds E) IPAE 


icmp ip 


IP 首 部 (包括 选项 ) 和 原始 IP 数 据 报 中 开始 的 至 少 8 字 节 





图 11-26 ICMP 重 定向 报 文 


图 11-27 显 示 了 icmp_input 用 来 处 理 重 定 回 报 文 的 程序 。 


ip icmp.c 
283 case ICMP REDIRECT: 
284 if (code » 3) 
285 goto badcode; 
286 if (icmplen < ICMP ADVLENMIN || icmplen < ICMP ADVLEN(icp) |l 
287 icp-»icmp ip.ip hl < (sizeof(struct ip) >> 2)) ( 
288 icmpstat.icps badlen--; 
289 break; 
290 ) 
291 ,* 
292 * Short circuit routing redirects to force 
293 * immediate change in the kernel's routing 
294 * tables. The message is also handed to anyone 
295 * listening on a raw socket (e.g. the routing 
296 * daemon for use in updating its tables). 
297 */ 
298 icmpgw.sin, addr = ip-»ip src; 
299 icmpdst.sin, addr = icp-»icmp gwaddr; 
300 lcmpsro.sin.addr = lcp-»icmp.ip.Jp.dst; 
301 rtredirect((struct sockaddr *) &icmpsrc, 
302 (struct sockaddr *) &icmpdst, 
303 (struct sockaddr *) 0, RTF: GATEWAY | RTF HOST, 
304 (struct sockaddr *) &icmpgw, (struct rtentry **) 0); 
305 pfctlinput(PRC REDIRECT HOST, (struct sockaddr *) &icmpsrc); 
306 break; NM 
ip icmp.c 
图 11-27 icmp input 函 数 : 重 定 问 报 文 
1. 验证 


283-290 如果 重 定向 报 文中 含有 未 识别 的 ICMP 码 ，icmp_input 就 跳 到 badcode( 图 11- 
18 的 232 行 )， 如 果 报 文具 有 无 效 长 度 或 封闭 的 IP 分 组 具有 无 效 首部 长 度 ， 则 中 止 switch。 图 
11-16 显 示 了 ICMP 差 错 报 文 的 最 小 长 度 是 36(ICMP ADVLENMIN), ICMP ADVLEN(icp) 是 当 
icp 所 指向 的 分 组 有 了 PP 了 选项 时 ，ICMP 差 错 报 文 的 最 小 长 度 。 . 

291-300 icmp_input 分 别 把 重 定 同 报 文 的 源 站 地 址 (发 送 该 报 文 的 网 关 )、 为 原始 分 组 推 
荐 的 路 由 器 (第 一 跳 目 的 地 ) 和 原始 分 组 的 最 终 目 的 地 址 分 配给 icmpgw、icmpdst 和 


icmpsrc, 
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这 里 ，icmpsrc 并 不 包含 源 站 地 址 一 一 这 是 方便 存放 目的 地 址 的 位 置 ， 无 须 再 
定义 一 个 sockaddr 结 构 。. 
2. 更 新 路 由 
301-306 Net/3 按 照 RFC 1122 的 推荐 ， 等 价 地 对 待 网 络 重 定向 和 主机 重 定向 。 重 定 癌 信息 被 
传 给 ztredirect， 由 这 个 函数 更 新 路 由 表 。 重 定向 的 目的 地 址 (保存 在 icmpszc) 被 传 给 
pfct1linput， 由 它 通告 重 定向 的 所 有 协议 域 (7.3 节 )， 使 协议 有 机 会 把 缓存 的 到 目的 站 的 路 
由 作废 。 
按照 RFC 1122， 应 该 把 网 络 重 定向 作为 主机 重 定 向 对 待 ， 因 为 当 目 的 网 络 划 分 
了 子 网 时 ， 它 们 会 提供 不 正确 的 路 由 信息 。 事 实 上 ，RFC 1009 要 求 ， 在 网 络 划 分 子 
网 的 情况 下 ， 不 发 送 网 络 重 定向 。 不 幸 的 是 ， 许 多 路 由 器 违背 了 这 个 要 求 。Net/3 从 
不 发 重 定向 报 文 。 
ICMP 重 定向 报 文 是 IP 路 由 选择 体系 结构 的 基本 组 成 部 分 。 尽 管 被 划分 到 差错 报 文 类 ， 但 
它 却 是 在 任何 有 多 个 路 由 器 的 网 络 正 常 运行 时 出 现 的 。 第 18 章 更 详细 讨论 了 IP 路 由 选择 问题 。 


11.9 回答 处 理 


如 图 11-28 所 示 ， 内 核 不 处 理 任 何 ICMP 回 答 报 文 。ICMP 请 求 由 进程 产生 ， 内 核 从 不 产生 
请 求 。 所 以 ， 内 核 把 它 接收 的 所 有 回答 传 给 等 待 ICMP 报 文 的 进程 。 另 外 ，ICMP 路 由 大 发 现 
报 文 被 传 给 Yip_input。 


ip_icmp.c 
307 p 
308 * No kernel processing for the following; 
309 * just fall through to send to raw listener. 
310 ud i 
311 case ICMP ECHOREPLY: 
312 case ICMP ROUTERADVERT': 
313 case ICMP ROUTERSOLICIT: 
314 case ICMP TSTAMPREPLY: 
315 case ICMP IREQREPLY: 
316 case ICMP MASKREPLY: 
317 default: 
318 break; 
319 ) 
320 raw: 
321 rip input (m); 
322 return; 本 于 
Ip icmp.c 


图 11-28 icmp_input 国 数 : 回答 报 文 
307-322 内 核 无 须 对 ICMP 回 答 报 文 做 出 任何 反应 ， 所 以 在 raw 处 的 switch 语 句 后 继续 执行 (图 
11-15)。 注 意 ，switch 语 句 的 default 情 况 ( 未 识别 的 ICMP 报 文 ) 也 把 控制 传 给 在 raw 处 的 代码 。 
11.40 输出 处 理 


有 几 种 方法 产生 外 出 的 ICMP 报 文 。 第 8 章 讲 到 耻 调 用 icmp_errozr 来 产生 和 发 送 ICMP % 
错 报 文 。icmp_reflect 发 送 ICMP 回答 报 文 ， 同 时， 进程 也 可 能 通过 原始 ICMP 协议 生成 
ICMP 报 文 。 图 11-29 显 示 了 这 些 函 数 与 CMP 外 出 处 理 之 则 的 关系 。 
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应 用 程序 
ICMP 差 错 


debct ^ ICMPR 
| ICMP 输 入 处 理 i Sa 


(图 11-15) 





图 11-29 ICMP 外 出 处 理 


icmp error ži 


icmp_error 在 IP 或 运输 层 协 议 的 请 求 下 ， 构 造 一 个 ICMP 差 错 请 求 报 文 ， 并 把 它 传 给 


icmp _ 


46 
47 
48 
49 
50 
51 
52 
53 
54 
Ss 
56 
57 


58 
$9 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
T3 
72 
73 
74 
75 


reflect， 在 那里 该 报 文 被 返回 无 效 数 据 报 的 源 站 。 我 们 分 三 部 分 分 析 这 个 图 数 : 
erg ip icmp.c 
icmp error(n, type, code, dest, destifp) 
scruct mbuf tn; 
int type, code; 
n long dest; 
struct ifnet *destifp; 
( 
struct ip *oip = mtodí(n, struct ip *9, "nip: 
unsigned oiplen = oip-»ip hl << 2; 
struct icmp *icp; 
struct mbuf *m; 
unsigned icmplen; 


if (type !- ICMP REDIRECT) 
icmpstat.icps error-«-; 
/* 
* Don't send error if not the first fragment of message. 
* Don't error if the old packet protocol was ICMP 
* error message, only known informational types. 
£7 
if (oip-»ip off & ^(IP MF | IP DF)) 
goto freeit; 
if (oip-»ip p == IPPROTO ICMP && type !- ICMP REDIRECT && 
n-»m len »- oiplen + ICMP MINLEN && 
!ICMP INFOTYPE(((struct icmp*)((caddr t) oip + oiplen))-»icmp type))( 
icmpstat.icps oldicmp--; 
goto freeit; 
) 
/* Don't send error in response to a multicast or broadcast packet */ 
if (n-»m flags & (M BCAST | M MCAST)) 


goto freeit; "n 
ip icmp.c 


图 11-30 icmp errorr&Zk: 验证 
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* 确认 该 报 文 (图 11-30)， 
* 构造 首部 (图 11-32)， 并 
“把 原来 的 数据 报 包含 进来 (图 11-33)。 


46-57 参数 是 : n， 指 向 包含 无 效 数据 报 缓 存 链 的 指针 ; type 和 coqe，ICMP 差 错 类 型 和 
代码 ，dest，ICMP 重 定向 报 文中 的 下 一 跳 路 由 器 地 址 ; 以 及 destifp， 指 向 原始 IP 分 组 外 
出 接口 的 指针 。mt od 把 缓存 链 指针 n 转 换 成 oijp，oip 是 指向 缓存 中 ip 结 构 的 指针 。 原 始 IP 
分 组 的 字 节 长 度 保存 在 ioplen 中 。 

58-75 icps_error 统 计 除 重 定 疝 报 文 外 的 所 有 ICMP 差 错 。Net/3 不 把 重 定 向 报 文 看 作 错 


b, 


Ka 


而 且 icps_error 也 不 是 一 个 SNMP 变 量 。 

icmp_error 丢 弃 无 效 数据 报 oip， 并 且 在 以 下 情况 下 ， 不 发 送 差 错 报 文 : 

“ 除 IP_MF 和 IP_DF 外 ，ip_off 的 某 些 位 非 零 ( 习 题 11.10)。 这 表明 oip 不 是 数据 报 的 第 
一 个 分 片 ， 而 且 ICMP 决 不 能 为 跟踪 数据 报 的 分 片 而 生成 差错 报 文 。 

“无 效 数 据 报 本 身 是 一 个 ICMP 差 错 报 文 。 如 果 icmp_type 是 ICMP 请 求 或 响应 类 型 ， 则 
ICMP_INEFOTYPE 返 回 真 ， 如果 icmp_ type 是 一 个 差错 类 型 ， 则 ICMP INFOTYPE 返 回 假 。 


Net/3 不 考虑 ICMP 重 定向 报 文 差 锚 ， 尽 管 RFC 1122 要 求 考虑 。 


。 数据 报 作 为 链 路 层 广 播 或 多 播 到 达 ( 由 M_BCAST 和 M_MCAST 标 志 表 明 )。 
在 以 下 两 种 其 他 情况 下 ， 不 能 发 送 ICMP 差 错 报 文 : 
。 该 数据 报 是 发 给 IP 广 播 和 IP 多 播 地 址 的 。 
。 数据 报 的 源 站 地 址 不 是 单 播 IP 地 址 (也 即 ， 这 个 源 站 地 址 是 一 个 全 零 地 址 、 环 回 地 址 、 
广播 地 址 、 多 播 地 址 或 E 类 地 址 )。 
Net3 无 法 检查 第 一 种 情况 。icmp_reflect 国 数 强调 了 第 二 种 情况 (11.12 节 )。 
有 趣 的 是 ，Net/2 的 Deering 多 播 扩 展 并 不 丢弃 第 一 种 类 型 的 数据 报 。 因 为 Net/3 的 
多 播 程 序 来 自 Deering 多 播 扩展 ， 所 以 ， 检 测 似乎 被 删 去 了 。 
这 些 限制 的 目的 是 为 了 避免 有 错 的 广播 数据 报 触发 网 络 上 所 有 主机 都 发 出 ICMP 差 错 报 
当 网 络 上 所 有 主机 同时 要 发 送 差错 报 文 时 ， 产 生 的 广播 风暴 会 使 整个 网 络 的 通信 谣 溃 。 
这 些 规则 适用 于 ICMP 差 错 报 文 ， 但 不 适用 于 ICMP 回 答 。 如 RFC 1122 和 RFC 1127 的 讨论 ， 


允许 啊 应 广播 请 求 ， 但 既 不 推荐 也 不 鼓励 。Net/3 只 响应 具有 单 播 源 地 址 的 广播 请 求 ， 因 为 
ip_output 会 把 返回 到 广播 地 址 的 ICMP 报 文 丢弃 (图 11-39)。 


图 11-31 十 ICMP 差 错 报 文 的 构造 。 
图 11-32 的 程序 构造 差错 报 文 。 


76-106 icmp_error 以 下 面 的 方式 构造 ICMP 差 错 报 文 的 首部 : 


*“m_gethdr 分 配 一 个 新 的 分 组 首部 缓存 。MH_ALIGN 定 位 缓存 的 数据 指针 ， 使 无 效 数据 
报 的 ICMP 首 部 、 卫 首部 (和 选项 ) 和 最 多 8 字 节 的 数据 被 放 在 缓存 的 最 后 。 

*icmp type, icmp code, icmp gwaddr(HlT &;ElM). icmp pptr(ÜHT 2X] 
题 ) 和 icmp_nextmtu( 用 于 要 求 分 片 报 文 ) 被 初始 化 。icmp_nextmtu 字 段 实现 了 RFC 
1191 中 描述 的 要 求 分 片 报 文 的 扩展 。 卷 1 的 24.2 节 描述 的 “路 径 MTU 发 现 算法 ”依赖 于 
这 个 报 文 。 

一 有 旦 构造 好 ICMP 首 部 ， 就 必须 把 原始 数据 报 的 一 部 分 附 到 首部 上 ， 如 图 11-33 所 示 。 
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ICMP 差 错 报 文 
图 11-31 ICMP 差 错 报 文 的 构造 

76 /* Ip icmp.c 
T7 * First, formulate icmp message 

78 wf 

79 m = m gethdr(M DONTWAIT, MT HEADER); 

80 if (m == NULL) 

81 goto freeit; 

82 icmplen = oiplen + min(8, oip-»ip len); 

83 m-»m len = icmplen + ICMP MINLEN; 

84 MH ALIGN(m, m-»m len); 

85 icp = mtod(m, struct icmp *); 

86 if ((u int) type » ICMP MAXTYPE) 

87 panic("icmp error"); 

88 icmpstat.icps outhist[type]-4-; 

89 icp-»icmp type = type; 

90 if (type == ICMP REDIRECT) 

91 icp-»icmp gwaddr.s addr = dest; 

92 else ( 

93 icp-»icmp void = 0; 

94 p* 

95 * The following assignments assume an overlay with the 

96 * zeroed icmp void field. 

97 */ 

98 if (type == ICMP PARAMPROB) ( 

99 lcp-»icmp pptr = code; 

100 code = 0; 
101 ) else if (type -- ICMP UNREACH && 

102 code -- ICMP UNREACH NEEDFRAG && destifp) ( 

103 icp-»icmp nextmtu = htons(destifp-»if mtu); 

104 ) 
105 } 
106 icp-»icmp. code = code; "m 

Ip icmp.c 
图 11-32 icmp error: 报 文 首 部 构造 
107-125 无 效 数据 报 的 IP 首 部 、 选 项 和 数据 (一 共 是 icmplen 个 字 市 ) 被 复制 到 ICMP 差 错 报 


文中 。 同 时 ， 首 部 的 长 度 被 加 回 无 效 数据 报 的 jp_len 中 。 


在 udp usrreqT, UDP 也 把 首部 长 度 加 回 到 无 效 数据 报 的 ip len。 其 结果 是 
一 个 ICMP 报 文 ， 该 报 文具 有 无 效 分 组 IP 首 部 内 的 不 正确 的 数据 报 长 度 。 作 者 发 现 ， 


许多 基于 Net/2 程 序 的 系统 都 有 这 个 错误 ，Net/1 系 统 没 有 这 个 问题 。 
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: l ip_icmp.c 
107 bcopy((caddr t) oip, (caddr. t) & icp-»icmp ip, icmplen); 
108 nip - &icp-»icmp ib; 
109 nip-»ip len = htons((u short) (nip-»ip len + oiplen)); 
110 p^ 
LII * Now, copy old ip header (without options) 
112 * in front of icmp message. 
113 d i 
114 if (m-»m data - sizeof(struct ip) < m-»m pktdat) 
115 panic ("icmp len"); 
116 m->m_data -= sizeof(struct ip); 
LE m->m_len += sizeof(struct ip); 
118 m-»m pkthdr.len - m-»m len; 
119 m-»m pkthdr.rcvif - n-»m pkthdr.rcvif; 
120 nip = mtod(m, struct ip *); 
121 bcopy((caddr t) oip, (caddr t) nip, sizeof(struct ip)); 
122 nip->ip_len = m->m_len; 
123 nip-»ip hl = sizeof(struct ip) >> 2; 
124 nip-»ip p - IPPROTO ICMP; 
125 nip-»ip tos = 0; 
126 icmp reflect (m); 
127 freeit: 
128 m freem(ín); 
129 ) T 
ip icmp.c 


图 11-33 icmp_erroz 国 数 : 包含 原始 数据 报 


因为 MH_RALIGN 把 ICMP 报 文 分 配 在 缓存 的 最 后 ， 所 以 缓存 的 前 面 应 该 有 足够 的 空间 存放 
IP 首 部 。 无 效 数据 报 的 IP 首 部 ( 除 选 项 外 ) 被 复制 到 ICMP 报 文 的 前 面 。 
Net/2 版 本 的 这 部 分 有 一 个 错误 : 函数 的 最 后 一 个 bcopy 移 动 oiplen 个 字 节 ， 
其 中 包括 无 效 数 据 报 的 选项 。 应 该 只 复制 没有 选项 的 标准 首部 。 
在 恢复 正确 的 数据 报 长 度 (ijp_len)、 首 部 长 度 (ip_h1) 和 协议 (ip_p) 后 ，IP 首 部 就 完整 
了 。TOS 字 段 (ijp_tos) 被 清除 。 
RFC 792 和 RFC 1122 推 荐 在 ICMP 报 文中 ， 把 TOS 字 段 设 为 0。 


126-129 完整 的 报 文 被 传 给 jcmp reflect, 由 icmp reflect 把 它 发 回 源 主 机 。 丢 掉 
无 效 数据 报 。 


11.12 icmp reflect 函 数 


icmp_reflect 把 ICMP 回 答 或 差错 发 回 给 请 求 或 无 效 数据 报 的 源 站 。 必 须 牢 记 ， 
icmp_reflect 在 发 送 数据 报 之 前 ， 把 它 的 源 站 地 址 和 目的 地 址 倒 过 来 。 与 ICMP 报 文 的 源 
站 和 目的 站 地 址 有 关 的 规则 非常 复杂 ， 图 11-34 对 其 中 几 个 函数 的 作用 做 了 小 结 。 

我 们 分 三 部 分 讨论 icmp_reflect 函 数 : 源 站 和 目的 站 地 址 选择 、 选 项 构造 及 组 装 和 发 
送 。 图 11-35 显 示 了 该 国 数 的 第 一 部 分 。 

1. 设置 目的 地 址 
329-345 icmp_reflect 一 开始 ， 就 复制 ip_dst， 并 把 请 求 或 差错 报 文 的 源 站 地 址 
ip _ src 移 到 ip dst, icmp error 和 icmp reflect 保 证 : ip_src 对 差错 报 文 而 言 是 有 
效 的 目的 地 址 。ip_output 丢 掉 所 有 发 往 广 播 地 址 的 分 组 。 
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icmp_input 在 地 址 掩 码 请 求 中 ， 用 接收 接口 的 广播 或 目的 地 址 代替 全 0 地 址 

been pan 把 作为 链 路 级 广播 或 多 播发 送 的 数据 报 引起 的 差错 报 文 丢弃 。 应 该 丢弃 (但 没有 ) 发 往 
IP 广 播 或 多 播 地 址 的 数据 报 引 起 的 报 文 

icmp_reflect | ”丢弃 报 文 ， 而 不 是 把 它 返 回 给 多 播 或 实验 地 址 


把 非 单 播 目的 地 址 转换 成 接收 接口 的 地 址 ， 对 返回 的 报 文 来 说 ， 目 的 地 址 就 是 一 个 有 
交换 源 站 和 目的 站 的 地 址 
ip output 按照 ICMP 的 请 求 丢 弃 输 出 的 广播 (也 就 是 说 ， 丢 弃 由 发 往 广 播 地址 的 分 组 产生 的 差错 
报 文 ) 





图 11-34 ICMP 和 技 弃 和 地 址 小 结 


2. 选择 源 站 地 址 
346-371 icmp_reflect 在 in_ifaddr 中 找到 具有 单 播 或 广播 地 址 的 接口 ， 该 接口 地 址 与 
原始 数据 报 的 目的 地 址 匹配 , 这样 ， icmp_reflect 就 为 报 文选 好 了 源 地 址 。 在 多 接口 主机 上 ， 
匹配 的 接口 可 能 不 是 接收 该 数据 报 的 接口 。 如 果 没 有 匹配 ， 就 选择 正在 接收 的 接口 的 
in ifaddzr 结 构 ， 或 者 in_ifaddr 中 的 第 一 个 地 址 (如 果 该 接口 没有 被 配置 成 Ip 可 用 的 )。 访 
国 数 把 ip_szc 设 成 所 选 的 地 址 ， 并 把 ip_ttl1 改 为 23$S(MAXTTL)， 因 为 这 是 一 个 新 的 数据 报 。 


RFC 1700 推 荐 把 所 有 JIP 分 组 的 TTL 字 段 设 成 64。 但 是 现在 ， 许 多 系统 把 ICMP 报 
x &jTTLi& X255, 

TTEL 的 取 值 有 一 个 拆 圳 。 小 的 TTL 避 免 分 组 在 路 由 回路 里 面 循环 ， 但 也 有 可 能 使 
分 组 无 法 到 达 远 一 点 的 节点 (有 很 多 跳 )。 大 的 TTL 允 许 分 组 到 达 远 距离 的 主机 ， 但 却 
让 分 组 在 路 由 回路 里 循环 较 长 时 间 。 


329 void renun 
330 icmp reflect (m) 

331 struct mbuf *m; 

332 1 

333 struct ip *ip = tmtodiím, struct ip *); 

334 struct in ifaddr *ia; 

335 struct in addr t; 

336 struct mbuf *opts - 0, *ip srcroute(); 

337 int optlen = (ip-»ip hl «« 2) - sizeof(struct ip); 

338 if (!in canforward(ip-»ip src) && 

339 ((ntohl(ip-»ip src.s addr) & IN CLASSA NET) !- 

340 (IN LOOPBACKNET << IN CLASSA NSHIFT))) { 

341 m freem(m); /* Bad return address */ 

342 goto done; /* Ip output() will check for broadcast */ 
343 ) 

344 t - ip-»ip dst; 

345 ip-»ip dst - ip-»ip src; 

346 /* 

347 * If the incoming packet was addressed directly to us, 
348 * use dst as the src for the reply. Otherwise (broadcast 
349 * or anonymous), use the address which corresponds 

350 * to the incoming interface. , 

351 */ 

352 for (ia = in ifaddr; ia; ia = ia-»ia next) + 
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353 if (t.s addr == IA, SIN(ia)-»sin addr.s. addr) 

354 break; 

355 if ((ia-»ia ifp-»if flags & IFF BROADCAST) && 

356 t.s addr -- satosin(&ia-»ia broadaddr)-»sin addr.s addr) 

157 break; 

358 ) 

359 icmpdst.sin addr - t; 

360 if (ia ss (struct in ifaddr *) 0) 

361 ia - (struct in ifaddr *) ifaof ifpforaddr( 

362 (struct sockaddr *) &icmpdst, m-»m pkthdr.rcvif); 

363 "fos 

364 * The following happens if the packet was not addressed to us, 

365 * and was received on an interface with no IP address. 

366 ay 

367 if (ia =s (atfuüct in ifaddr *) 0) 

368 ia s in ifaddr; 

369 t = IA, SIN(ia)-»sin, addr; 

370 lp-»1p.sSrG s t; 

371 ip-»ip ttl = MAXTTL; nP 

ip_icmp.c 

图 11-35 (4%) 


RFC 1122 提 出 ， 对 到 达 的 回 显 请 求 或 时 间 惟 请 求 ， 要 求 把 其 中 的 源 路 由 选项 及 记录 路 由 
和 时 间 玲 选项 的 建议 ， 附 到 回答 报 文中 。 在 这 个 过 程 期 间 ， 源 路 由 必须 被 逆转 过 来 。RFC 
1122 没 有 涉及 在 其 他 ICMP 回 答 报 文中 如 何 处 理 这 些 选 项 。Net/3 把 这 些 规则 应 用 于 地 址 掩 码 
请 求 ， 因 为 它 在 构造 地 址 掩 码 回 答 后 调用 了 icmp_reflect( 图 11-21)。 

程序 的 下 一 部 分 (图 11-36) 为 ICMP 报 文 构造 选项 。 





372 if (optlen > 0) 4 inak ii 
373 u char *cp; 

374 int opt, cnt; 

375 u.lnt len; 

376 p* 

377 * Retrieve any source routing from the incoming packet; 
378 * add on any record-route or timestamp options. 

379 d à 

380 ep = (ùu cbar *) (lip Ff 1]; 

381 if ((opts = ip.srcroute()) == 0 && 

382 (opts = m gethdr(M DONTWAIT, MT HEADER))) ( 

383 opts-»m len = sizeof(struct in_addr); 

384 mtod (opts, struct in_addr *)-»s addr = 0; 

385 ) 

386 if (opts) ( 

387 for (cnt s optlen; ont > 0; cnt == len, cp += len) { 
388 opt - cp[IPOPT OPTVAL]; 

389 lf (opt == IPOPT EOL) 

390 break; 

391 if (OBt == IPOPT NOP) 

392 len z 1; 

393 else ( 

394 len - cp[IPOPT OLEN]; 

395 if (1698 «e O Ii lem > cit) 

396 break; 

397 ) 

398 A 


图 11-36 icmp reflect Kr: 选项 构造 
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399 * Should check for overflow, but it "can't happen" 
400 n i 
401 if (opt == IPOPT RR || opt == IPOPT TS || 
402 opt -- IPOPT SECURITY) ( 
403 bcopy((caddr t) cp, 
404 mtod(opts, caddr t) + opts-»m len, len); 
405 opts-»m len += len; 
406 ) 
407 ) 
408 /* Terminate & pad, if necessary */ 
409 if (cnt - opts-»m len $ 4) ( 
410 for (; cnt < 4; cnt««) ( 
411 *(mtod(opts, caddr t) + opts-»m len) = 
412 IPOPT EOL; 
413 opts-»m len-«-«; 
414 ) 
415 ) 
416 } 
图 11-36 (fx) 
3. 取得 逆转 后 的 源 路 由 


ip_icmp.c 


372-385 如果 到 达 的 数据 报 没 有 选项 ， 控 制 被 传 给 430 行 (图 11-37)。icmp_error 传 给 
icmp_reflect 的 差错 报 文 从 来 没有 IP 选 项 ， 所 以 后 面 的 程序 只 用 于 那些 被 转换 成 回答 并 直 
接 传 给 icmp _ reflect 的 ICMP 请 求 。 
cp 指 癌 回答 的 选项 的 开始 。ip_srcroute 迹 转 并 返回 所 有 在 ijpintr 处 理 数据 报时 保存 
下 来 的 源 路 由 选项 。 如 果 ip_srcoute 返 回 0， 即 请 求 中 没有 源 路 由 选项 ，icmp_reflect 
分 配 并 初始 化 一 个 mbuf， 作 为 空 的 ijpoption 结 构 。 
4. 加 上 记录 路 由 和 时 间 惟 选项 
386-416 如 果 opts 指 向 某 个 缓存 ，for 人 循环 搜索 原始 IP 首 部 的 选项 ， 在 ip_srcroute 返 回 
的 源 路 由 后 面 加 上 记录 路 由 和 时 间 截 选项 。 
在 ICMP 报 文 发 送 之 前 必须 移 走 原始 首部 里 的 选项 。 这 由 图 11-37 中 的 程序 完成 。 


417 
418 
419 
420 
421 
422 
423 
424 
425 
426 
427 
428 
429 
430 
431 
432 
433 
434 
835 j 


/* 
* Now strip out original options by copying rest of first 
* mbuf's data back, and adjust the IP length. 
27y 
ip->ip_len -= optlen; 
ip-»ip hl = sizeof (struct 1p) »» 2; 
m-»m len -= optlen; 
if (m-»m flags & M PKTHDR) 
m-»m pkthdr.len -- optlen; 
optlen += sizeof(struct ip); 
bcopy((caddr t) ip + optlen, (caddr t) (ip + 1), 
(unsigned) (m-»m len - sizeof(struct ip))); 


) 


m-»m flags &- "(M BCAST | M MCAST); 
icmp send(m, opts); 

done: 
if (Opts) 


(void) m free(opts); 


图 11-37- icmp reflectriKZk: 最 后 的 组 装 


ip_icmp.c 


ip_icmp.c 
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5. 移 走 原始 选项 
417-429 icmp_reflect 把 ICMP 报 文 移 到 IP 首 部 的 后 面 ， 这 样 就 从 原始 请 求 中 移 走 了 选 
项 。 如 图 11-38 所 示 。 新 选项 在 cpts 所 指 四 的 mbuf 里 ， 被 ip_output 再 次 插入 。 

6. 发 送 报 文 和 请 除 
430-435 在 报 文 和 选项 被 传 给 icmp_send 之 前 ， 要 明确 地 清除 广播 和 多 播 标 志 位 。 此 后 释 


放 掉 存放 选项 的 缓存 。 
PEE NN 


bcopy 之 前 


bcopy 之 后 





图 11-38 icmp reflect: 移 走 选项 


11.13 icmp send 函数 


icmp_send( 图 11-39) 处 理 所 有 输出 的 ICMP 报 文 ， 并 在 把 它们 传 给 卫 层 之 前 计算 ICMP 检 
验 和 。 


440 void os d 
441 icmp send(m, opts) 
442 struct mbuf *m; 
443 struct mbuf *opts; 
444 ( 
445 Struct ip *ip = mtodí(m, struct ip *); 
446 int hlen; 
447 struct icmp *icp; 
448 hlen = ip-»ip hl << 2; 
. 449 m-»m data += hlen; 
450 m-»m len -- hlen; 
451 icp: = mtoü(m, struct icmp *); 
452 icp-»icmp cksum = 0; 
453 icp-»icmp cksum = in cksum(m, ip-»ip len - hlen); 
454 m-»m data -- hlen; 
455 m-»m len += hlen; 
456 (void) ip output(m, opts, NULL, 0, NULL); 
457 ) m s 
Ip icmp.c 


图 11-39 icmp send 函 数 


440-457 lLjicmp inputfzJWICMPER;ATI—fTt, NeU3UASEZE (E BJACUSTRELTU I Re. KAIP 
首部 ， 让 in_cksum 只 看 到 ICMP 报 文 。 计 算 好 的 检验 和 放 在 首部 的 icmp_cksum， 然 后 把 数 
据 报 和 所 有 选项 传 给 ip_output。ICMP 层 并 不 维护 路 由 高 速 缓存 ， 所 以 icmp_send 只 传 给 
ip_output 一 个 空 指 针 ( 第 4 个 参数 )， 而 不 是 控制 标志 。 特 别 是 不 传 ITP ALLOWBROADCAST, 
所 以 ip_output 丢 弃 所 有 具有 广播 目的 地 址 的 ICMP 报 文 (也 就 是 说 ， 到 达 原 始 数据 报 的 具有 
无 效 的 源 地址 )。 
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11.14 icmp sysct1 函 数 


IP 的 icmp_sysct1 畏 数 只 支持 图 11-40 列 出 的 选项 。 系 统管 理 员 可 以 用 sysct1 程 序 修 改 


图 11-40 icmp sysct1 参 数 





图 11-41 显 示 了 icmp sysct1 国 数 。 


467 int Tue 

468 icmp_sysctl (name, namelen, oldp, oldlenp, newp, newlen) 

469 int *name; 

470 u int namelen; 

471 void *oldp; 

472 size t *oldlenp; 

473 void *newp; 

474 size t newlen; 

475 ( 

476 /* All sysctl names at this level are terminal. */ 

477 if (namelen !- 1) 

478 return (ENOTDIR); 

479 switch (name[0]) ( 

480 case ICMPCTL MASKREPL: 

481 return (sysctl, int(oldp, oldlenp, newp, newlen, &icmpmaskrepl)); 

482 default: 

483 return (ENOPROTOOPT); 

484 ) 

485 /* NOTREACHED */ 

486 ) "n 
ip icmp.c 


图 11-41 icmp sysctl 函数 


467-478 如 果 和 缺少 所 要 求 的 ICMP sysct1 名 ， 就 返回 ENOTDIR。 
479-486 ICMP 级 以 下 没有 选项 ， 所 以 ， 如 果 不 识别 选项 ， 该 函数 就 调用 sysct1l_int 修 改 
icmpmaskrepl 或 返回 ENOPROTOOPT。 


11.15 小结 


ICMP 协 议 是 作为 IP 上 面 的 运输 层 实 现 的 ， 但 它 与 IP 层 紧密 结合 一 起 。 我 们 看 到 ， 内 核 直 
接 啊 应 ICMP 请 求 报 文 ， 但 把 差错 与 回答 传 给 合适 的 运输 层 协 议 或 应 用 程序 处 理 。 当 一 个 
ICMP 重 定 同 报 文 到 达 时 ， 内 核 立刻 重 定向 表 ， 并 且 也 把 重 定向 传 给 所 有 等 待 的 进程 ， 比 如 上 典 
型 地 传 给 一 个 路 由 守护 程序 。 

我 们 将 在 23.9 和 27.6 市 看 到 UDP 和 和 TCP 协议 如 何 啊 应 ICMP 差 错 报 文 ， 在 第 32 章 看 到 进程 
如 何 产生 ICMP 请 求 。 


习题 
11.1 一 个 目的 地 址 是 0.0.0.0 的 请 求 所 产生 的 ICMP 地 址 掩 码 回答 报 文 的 源 地址 是 什么 ? 


11.2 


11.3 


11.4 


11.5 


11.6 


11.7 
11.8 


11.9 
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idi — 1 BUR TELE] HER UR HOHER HERRAS d An firn EAE 
机 的 运行 。 

RFC 1122 建 议 ， 如 果 新 的 第 一 跳 路 由 堪 与 旧 的 第 一 跳 路 由 器 位 于 不 同 的 子 网 ， 或 者 
如 果 发 送 报 文 的 路 由 磺 不 是 报 文 最 终 目 的 地 的 当前 第 一 跳 路 由 器 ， 那 么 主机 应 该 丢 
弃 ICMP 重 定 同 报 文 。 为 什么 要 采纳 这 个 建议 ? 

如 末 ICMP 信 息 请 求 是 过 时 的 ， 为 什么 icmp_inout 要 把 它 传 给 rip_input 而 不 是 
EF ECHE? 

我 们 指出 ，Net/3 在 把 IP 分 组 放 入 一 个 ICMP 差 错 报 文 之 前 ， 并 不 把 它 的 偏 移 和 长 度 
字段 转换 成 网 络 字 市 序 。 为 什么 这 对 IP 位 移 字 段 来 说 是 无 关 紧 要 的 ? 
描述 某 种 情况 ， 使 图 11-25 的 ijfaof ifpforaddr 返 回 一 个 空 指针 。 

在 一 次 时 间 惟 询问 中 ， 时 间 惟 后 面 的 数据 会 怎么 样 ? 

实现 以 下 改变 ， 改 进 ICMP 时 间 改 程序 : 

在 缓存 分 组 首部 加 上 一 个 时 间 戳 字段， 让 设备 驱动 程序 把 接收 分 组 的 确切 时 间 记 录 
在 这 个 字段 内 ， 并 用 ICMP 时 间 惟 程序 把 该 值 复制 到 icmp_rtime 字 段 。 

在 输出 端 ， 让 ICMP 时 间 惟 程序 保存 分 组 中 的 某 个 字 节 偏 移 ， 该 位 置 用 于 保存 时 间 
蕉 里 的 当前 时 间 。 修 改 设备 驱动 程序 ， 在 发 送 分 组 之 前 插入 时 间 戳 。 

修改 icmp_erzor， 使 ICMP 差 错 报 文中 返回 最 多 64 字 节 ( 像 Solaris 2.x 一 样 ) 的 原始 
数据 。 


11.10 图 11-30 中 ，ip_off 的 高 位 被 置 位 的 分 组 会 发 生 什么 情况 ? 
11.11 为 什么 图 11-39 中 丢弃 了 ip_output 返 回 的 值 ? 


$12% IP 多 #8 


12.4 引言 


第 8 章 讲 到 ，D 类 IP 地 址 (224.0.0.0 到 239.255.255.255) 不 识别 互联 网 内 的 单个 接口 ， 但 识别 
接口 组 。 因 为 这 个 原因 ，D 类 地 址 被 称 为 多 播 组 (multicast group)。 具 有 D 类 目的 地 址 的 数据 报 
被 提交 给 互联 网 内 所 有 加 入 相应 多 播 组 的 各 个 接口 。 

Internet 上 利用 多 播 的 实验 性 应 用 程序 包括 : 音频 和 视频 会 议 应 用 程序 、 资 源 发 现 工具 和 
共享 白板 等 。 

多 播 组 的 成 员 由 于 接口 加 入 或 离开 组 而 动态 地 变化 ， 这 是 根据 各 系统 上 运行 的 进程 的 请 
求 决定 的 。 因 为 多 播 组 成 员 与 接口 有 关 ， 所 以 多 接口 主机 可 能 针对 每 个 接口 ， 都 有 不 同 的 多 
播 组 成 员 关 系 表 。 我 们 称 一 个 特定 接口 上 的 组 成 员 关 系 为 一 对 {接口 ， 多 播 组 }。 

单个 网 络 上 的 组 成 员 利用 IGMP 协 议 ( 第 13 章 ) 在 系统 之 间 通 信 。 多 播 路 由 如 用 多 播 选 路 协 
议 (第 14 童 )， 如 DVMRP(Distance Vector Multicast Routing Protocol, PEE [n] Œ 4 TE PS EH e Pe Mh 
DO fef X DA E. BRSEIPER H as "IHE SC RE A EXC ER. Xo Hg HER Blas PE A TRIER, 

如 以 太 网 、 令 牌 环 和 FDDI 一 类 的 网 络 直接 支持 硬件 多 播 。 在 NeV3 中 ， 如 果 某 个 接口 支持 
多 播 ， 那 么 在 接口 的 ifnet 结 构 (图 3-7) 中 的 if_flags 标 志 的 IFEEF_MULTICRAST 比 特 就 被 打 
开 。 因 为 以 太 网 被 广泛 使 用 ， 并 且 Net3 有 以 太 网 驱动 右 程 序 ， 所 以 我 们 将 以 以 太 网 为 例 说 明 
硬件 支持 的 IP 多 播 。 多 播 业务 通常 在 如 SLIP 和 环 回 接口 等 的 点 到 点 网 络 上 实现 。 

如 果 本 地 网 络 不 支持 硬件 级 多 播 ， 那 么 在 某 个 特定 接口 上 就 得 不 到 IP 多 播 业 务 。RFC 
1122 并 不 反对 接口 层 提供 软件 级 的 多 播 业 务 ， 只 要 它 对 IP 是 透明 的 。 

RFC 1112 [Deering 1989] 描述 了 多 播 对 主机 的 要 求 。 分 三 个 级 别 : 

0 级 : 主机 不 能 发 送 或 接收 IP 多 播 。 

这 种 主机 应 该 自动 丢弃 它 收 到 的 具有 D 类 目的 地 址 的 分 组 。 

1 级 : 主机 能 发 送 但 不 能 接收 IP 多 播 。 

在 向 某 个 IP 多 播 组 发 送 数据 报 之 前 ， 并 不 要 求 主机 加 入 该 组 。 多 播 数 据 报 的 发 送 方 
式 与 单 播 一 样 ， 除 了 多 播 数 据 报 的 目的 地 址 是 了 P 多 播 组 之 外 。 网 络 驱 动 右 必须 能 够 
识别 出 这 个 地 址 ， 把 在 本 地 网 络 上 多 播 数 据 报 。 

2 级 : 主机 能 发 送 和 接收 IP 多 播 。 

为 了 接收 PP 多 播 ， 主 机 必须 能 够 加 入 或 离开 多 播 组 ， 而 且 必 须 支 持 IGMP， 能 够 在 至 少 
一 个 接口 上 交换 组 成 员 人 信息。 多 接口 主机 必须 支持 在 它 的 接口 的 一 个 子 网 上 的 多 播 。 
Net/3 符 合 2 级 主机 要 求 ， 可 以 完成 多 播 路 由 器 的 工作 。 与 单 播 IP 选 路 一 样 ， 我 们 假 
定 所 描述 的 系统 是 一 个 多 播 路 由 颖 ， 并 加 上 了 NeV3 多 播 选 路 的 程序 。 


知名 的 IP 多 播 组 


和 UDP、TCP 的 端口 号 一 样 ， 互 联网 号 授权 机 构 IANA(Internet Assigned Numbers 
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Authority) 维 护 着 一 个 往 册 的 了 P 多 播 组 表 。 当 前 的 表 可 以 在 RFC 1700 中 查 到 。 有 关 IANA 的 其 
他 信息 可 以 在 RFC 1700 中 找到 。 图 12-1 只 给 出 了 一 些 知名 的 多 播 组 。 
Net/3 和 常量 


224.0.0.0 预 留 INADDR UNSPEC GROUP 
224.0.0.1 这 个 子 网 上 的 所 有 系统 INADDR ALLHOSTS GROUP 
224.0.0.2 这 个 子 网 上 的 所 有 路 由 器 


224.0.0.3 没有 分 配 INADDR MAX LOCAL GROUP 
224.0.0.4 DVMRP 路 由 器 
224.0.0.255 没有 分 配 


224.0.1.1 NTP 网 络 时 间 协 议 
224.0.1.2 SGI-Dogfight 





图 12-1 一 些 注册 的 IP 多 播 组 


前 256 个 组 (224.0.0.0 到 224.0.0.255) 是 为 实现 IP 单 播 和 多 播 选 路 机 制 的 协议 预 留 的 。 不 管 
发 给 其 中 任意 一 个 组 的 数据 报 内 IP 首 部 的 TTL 值 如 何 变 化 ， 多 播 路 由 器 都 不 会 把 它 转 发 出 本 
地 网 络 。 

RFC 1075 只 对 224.0.0.0 组 和 224.0.0.1 组 有 这 个 要 求 ， 但 最 常见 的 多 播 选 路 实现 

mrouted 限 制 这 里 讨论 的 其 他 组 。 组 224.0.0.0(INADDR UNSPEC GROUP) 被 预 贸 ， 组 

224.0.0.255(INADDR MAX LOCAL GROUP) 标 志 着 本 地 最 后 一 个 多 播 组 。 


对 于 符合 2 级 的 系统 ， 要 求 其 在 系统 初始 化 时 (图 6-17)， 在 所 有 的 多 播 接口 上 加 入 
224.0.0.1 组 (INADDR ALLHOSTS GROUP)， 并 且 保 持 为 该 组 成 员 ， 直 到 系统 关闭 。 在 一 个 互 
联网 上 ， 没 有 多 播 组 与 每 个 接口 都 对 应 。 

想象 一 下 ， 如 果 你 的 语音 邮件 系统 有 一 个 选项 ， 可 以 向 公司 里 的 所 有 语音 邮箱 

发 一 个 消息 。 可 能 你 就 有 这 个 选项 。 你 发 现 它 有 用 吗 ? 对 更 大 的 公司 适用 吗 ? 是否 

有 人 能 向 “所 有 邮箱 ”组 发 邮件 ， 或 者 是 否 限制 这 么 做 ? 

单 播 和 多 播 路 由 可 能 会 加 入 224.0.0.2 组 进行 互相 通信 。ICMP 路 由 颖 请 求 报 文 和 路 由 磺 通 
告 报 文 可 能 被 分 别 发 往 224.0.0.2(“ 所 有 路 由 器 ”组 ) 和 224.0.0.1(“ 所 有 主机 ”组 )， 而 不 是 受 
限 的 广播 地 址 (255.255.255.255)。 

224.0.0.4 组 支持 在 实现 DVMRP 的 多 播 路 由 右 之 间 的 通信 。 本 地 多 播 组 范围 内 的 其 他 组 被 
类 似 地 指派 给 其 他 路 由 选择 协议 。 

除了 前 256 个 组 外 ， 其 他 组 (224.0.1.0~239.255.255.255) 或 者 被 分 配给 多 个 多 播 应 用 程序 协 
D, 或 者 仍然 没有 被 分 配 。 图 12-1 中 有 两 个 例子 ， 网 络 时 间 协 议 (224.0.1.1) 和 SGI- 
Dogfight(224.0.1.2), 

在 本 章 中 ， 我 们 注意 到 ， 是 主机 上 的 运输 层 发 送 和 接收 多 播 分 组 。 尽 管 多 播 程序 并 不 知 
道具 体 是 哪个 传输 协议 发 送 和 接收 多 播 数 据 报 ， 但 唯一 支持 多 播 的 Internet 传 输 协议 是 UDP。 


12.2 代码 介绍 


本 章 中 讨论 的 基本 多 播 程序 与 标准 IP 程 序 在 相同 的 文件 里 。 图 12-2 列 出 了 我 们 研究 的 
xt. 
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net/if either.h 以 太 网 多 播 数据 结构 和 宏 定 义 
netinet/in.h 其 他 Internet 多 播 数 据 结 构 
netinet/in var.h Internet 多 播 数 据 结 构 和 宏 定 义 


netinet/ip var.h IP 多 播 数据 结构 
net/if ethersubr.c LA Iud & RE ER Tx 
netinet/in.c ?H pk, D PA 
netinet/ip input.c 输入 多 播 处 理 
netinet/ip output.c 输出 多 播 处 理 


图 12-2 本 章 讨论 的 文件 





12.2.1 全 局 变量 
本 章 介 绍 了 三 个 新 的 全 局 变量 (图 12-3)。 


ether ipmulticast min | u char [] 为 IP 预 留 的 最 小 以 太 网 多 播 地 址 
ether ipmulticast max | u char [] 为 IP 预 留 的 最 大 以 太 网 多 播 地 址 
ip mrouter struct socket * | 多 播 选 路 守护 程序 创建 的 指向 插口 的 指针 


图 12-3 本 章 引 入 的 全 局 变量 





12.2.2 统计 量 
本 章 讨 论 的 程序 更 新 全 局 ijpstat 结 构 中 的 几 个 计数 器 (图 12-4)。 


ips forward 被 这 个 系统 转发 的 分 组 数 


ips cantforward | 不 能 被 系统 转发 的 分 组 数 一 一 系统 不 是 一 个 路 由 器 
ips_noroute 由 于 无 法 访问 到 路 由 器 而 无 法 转发 的 分 组 数 


图 12-4 多 播 处 理 统计 量 
链 路 级 多 播 统计 放 在 ifnet 结 构 中 (图 4-3)， 还 可 能 统计 除 IP 以 外 的 其 他 协议 的 多 播 。 
12.3 以 太 网 多 播 地 址 





IP 多 播 的 高 效 实现 要 求 IP 充 分 利用 硬件 级 多 播 ， 因 为 如 果 设 有 硬件 级 多 播 ， 就 不 得 不 在 
网 络 上 广播 每 个 多 播 卫 数据 报 ， 而 每 台 主 机 也 不 得 不 检查 每 个 数据 报 ， 把 那些 不 是 给 它 的 丢 
掉 。 硬 件 在 数据 报到 达 IP 层 之 前 ， 就 把 没有 用 的 过 滤 掉 了 。 

为 了 保证 硬件 过 滤器 能 正常 工作 ， 网 络 接 口 必须 把 IP 多 播 组 目的 地 址 转换 成 网 络 硬件 识 
别 的 链 路 级 多 播 地 址 。 在 点 到 点 网 络 上 ， 如 SLIP 和 环 回 接口 ， 必 须 明 确 给 出 地 址 映射 ， 因 为 
只 能 有 一 个 目的 地 址 。 在 其 他 网 络 上 ， 如 以 太 网 ， 也 需要 有 一 个 明确 地 完成 映射 地 址 的 函数 。 
以 太 网 的 标准 映射 适用 于 任何 使 用 802.3 寻 址 方式 的 网 络 。 

图 4-12 显 示 了 以 太 网 单 播 和 多 播 地 址 的 区 别 : 如 果 以 太 网 地 址 的 高 位 字 市 的 最 低位 是 1， 
则 它 征 一 个 多 播 地 址 ;否则 ， 它 是 一 个 单 播 地 址 。 单 播 以 太 网 地 址 由 接口 制造 商 分 配 ， 多 播 
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地 址 由 网 络 协议 动态 分 配 。 
IP 到 以 太 网 地 址 映射 


因为 以 太 网 支持 多 种 协议 ， 所 以 要 采取 措施 分 配 多 播 地 址 ， 避 免 冲 突 。IEEE 管 理 以 太 网 多 播 
地 址 分 配 。IEEE 把 一 块 以 太 网 多 播 地 址 分 给 IANA 以 支持 卫 多 播 。 块 的 地 址 都 以 01:00 :5e 开 头 。 
以 00:00:5e 开 头 的 以 太 网 单 播 也 被 分 配给 IANA ， 但 为 将 来 使 用 预 留 。 


图 12-5 显 示 了 从 一 个 DD 类 IP 地 址 构造 出 一 个 以 太 网 多 播 地 址 。 


标识 以 太 网 必须 是 0，IANA 
多 播 地 址 预 留 了 1 
15 16 31 32 


7 48 位 以 太 


Fi 
i N / 


IANA 预 留 的 32 位 D 类 IP 地 址 —————— 
以 太 网 前 绥 


图 12-5 IP 和 以 太 网 地 址 之 则 的 映射 


图 12-5 显 示 的 映射 是 一 个 多 到 一 的 映射 。 在 构造 以 太 网 地 址 时 ， 没 有 使 用 D 类 IP 地 址 的 高 
位 9 比特 。32 个 IP 多 播 组 映射 到 一 个 以 太 网 多 播 地 址 (习题 12.3)。 我 们 将 在 12.14 市 看 到 这 将 如 
何 影响 输入 的 处 理 。 图 12-6 显 示 了 Net/3 中 实现 这 个 映射 的 宏 。 


- - if_ether.h 
61 #define ETHER MAP IP MULTICAST(ipaddr, enaddr) \ 
62 /* struct in adar *ipaddr; */ \ 
63 /* u_char enaddr[6]; o ie 
64 ( \ 
65 (enaddr) [0] = 0x01; \ 
66 (enaddr) [1] = 0x00; \ 
67 (enaddr) [2] = 0x5e; \ 
68 (enaddr)[3] = ((u char *)ipaddr)[([1] & Ox7£; \ 
69 (enaddr)[4] = ((u char *)ipaddr)[2]; \ 
70 (enaddr)[5] = ((u char *)ipaddr)[3]; X 
T1 3j 

if ether.h 
12-6 ETHER MAP IP MULTICAST F 

IP 到 以 太 网 多 播映 射 


61-71 ETHER MAP IP MULTICAST 实 现 图 12-5 所 示 的 映射 。ipaddr 指 癌 D 类 多 播 地 址 ， 
enaddr 构 造 匹 配 的 以 太 网 地 址 ， 用 6 字 市 的 数组 表示 。 该 以 太 网 多 播 地 址 的 前 3 个 字 市 是 
0x01，0x00 和 0x5e， 后 面 跟着 0 比特 ， 然 后 是 D 类 IP 地 址 的 低 23 位 。 


12.4 ether multi 结 构 


Net/3 为 每 个 以 太 网 接口 维护 一 个 该 硬件 接收 的 以 太 网 多 播 地 址 范围 表 。 这 个 表 定 义 了 该 
设备 要 实现 的 多 播 过 滤 。 因 为 大 多 数 以 太 网 设备 能 选择 地 接收 的 地 址 是 有 限 的 ， 所 以 IP 层 必须 
要 准备 丢弃 那些 通过 了 硬件 过 滤 的 数据 报 。 地 址 范围 被 保存 在 ether_multi 结 构 中 (图 12-7): 
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| if ether. 
147 struct ether multi { 
148 u_char enm addrlo[6]; /* low or only address of range */ 
149 u char enm addrhi[6]; /* high or only address of range */ 
150 struct arpcom *enm ac; /* back pointer to arpcom */ 
154 u int enm refcount; /* no. claims to this addr/range */ 
152 struct ether multi *enm next; /* ptr to next ether multi */ 
153 Ji A 
if_ether.h 


图 12-7 ether multi 结 构 


1. 以 太 网 多 播 地 址 
147-153 enm addrlo 和 enm addrhi 指 定 需要 被 接收 的 以 太 网 多 播 地 址 的 范围 。 当 


enm addrlo 和 enm _ addrhi 相 同时 ， 就 指定 一 个 以 太 网 地 址 。 ether multi 的 完整 列表 
附 在 每 个 以 太 网 接口 的 arpcom 结 构 中 (图 3-26)。 以 太 网 多 播 独立 于 ARP 一 一 使 用 arpcom 结 
构 只 是 为 了 方便 ， 因 为 该 结构 已 经 存在 于 所 有 以 太 网 接口 结构 中 。 
我 们 将 看 到 ， 这 个 范围 的 开头 和 结尾 总 是 相同 的 ， 因 为 在 Net/3 中 ， 进 程 无 法 指 

定 地 址 范围 。 

enm ac 指 回 相 关 接 口 的 arpcom 结 构 ， enm refcount 跟 踪 对 ether_multi 结 构 的 使 
用 。 当 引用 计数 变 成 0 时 ， 就 释放 arpcom 结 构 。enm_next 把 单个 接口 的 ether_multi 结 
构 做 成 链表 。 图 12-8 显 示 出 ， 有 三 个 ether_multi 结 构 的 链表 附 在 le_softc[0] E, KE 
我 们 以 太 网 接口 示例 的 jfnet 结 构 。 


le softc[0]: 














ifnet{} 
arpcom{} 





ac multiaddrs 



















ether multi() 


01:00:5e:00:01:02 
01:00:5e:00:01:02 


ether multií() 


01:00:5e:00:00:02 
01:00:5e:00:00:02 


ether multi(í) 


01:00:5e:00:00:01 
01:00:5e:00:00:01 











enm ac enm ac enm ac 
enm refcount enm refcount enm refcount 








enm next enm next 





图 12-8 有 三 个 ether _ multi 结构 的 LANCE 接 口 


在 图 12-8 中 ， 我 们 看 到 : 

。 接 口 已 经 加 入 了 三 个 组 。 很 有 可 能 是 224.0.0.1( 所 有 主机 )、224.0.0.2( 所 有 路 由 絮 ) 和 
224.0.1.2(SGI-dogfight)。 因 为 以 太 网 到 IP 地 址 的 映射 是 一 到 多 的 ， 所 以 只 看 到 以 太 网 多 
播 地 址 的 结果 ， 无 法 确定 确切 的 IP 多 播 地 址 。 比 如 ， 接 口 可 能 已 经 加 入 了 225.0.0.1、 
225.0.0.2 和 226.0.1.2 组 。 

。 有 了 enm ac 后 向 指针 ， 就 很 容易 找到 链表 的 开始 ， 释 放 某 个 ehter_multi 结 构 ， 无 
须 再 实现 双向 链表 。 

。ethezr_multi 只 适用 于 以 太 网 设备 。 其 他 多 播 设备 可 能 有 其 他 实现 。 

图 12-9 中 的 ETHER LOOKUP_MULTI 宏 ， 搜 索 某 个 ethez_multi 结 构 ， 找 到 地 址 范围 。 
2. 以 太 网 多 播 查找 

166-177 addrlo 和 addrhi 指 定 搜 索 的 范围 ，ac 指 向 包含 了 要 搜索 链表 的 arpcom 结 构 。 
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for 循 环 完成 线性 搜索 ， 在 表 的 最 后 结束 ， 或 者 当 enm_addrlo 和 enm_addrhi 都 分 别 与 和 
所 提供 的 addar1lo 和 addrhi 匹 配 时 结束 。 当 循环 终止 时 ，enm 为 空 或 者 指 同 某 个 匹配 的 
ether multi 结构 。 


166 #define ETHER_LOOKUP_MULTI (addrlo, addrhi, ac, enm) \ ether 
167 /* u char addrlo[6]; */ \ 
168 /* u char addrhi[6]; */ \ 
169 /* struct arpcom *ac; */ \ 
170 /* struct ether multi *enm; */ \ 
TAL f£ X 
172 for ((enm) = (ac)-»ac multiaddrs; \ 
173 (enm) !- NULL && \ 
174 (bcmp((enm)-»enm addrlo, (addrlo), 6) != 0 II \ 
175 bcmp((enm)-»enm addrhi, (addrhi), 6) != 0); \ 
176 (enm) = (enm)-»enm next); "^ 
Lr 3 
if ether.h 


12-9 ETHER LOOKUP MULTIZ: 


12.5 以 太 网 多 播 接收 


从 本 节 以 后 ， 本 章 只 讨论 IP 多 播 。 但 是 ,在 Net/3 中 ， 也 有 可 能 把 系统 配置 成 接收 所 有 以 
太 网 多 播 分 组 。 虽 然 对 IP 协议 族 没 有 用 ,但 内 核 的 其 他 协议 族 可 能 准备 接收 这 些 多 播 分 组 。 
发 出 图 12-10 中 的 ioct1 命 令 ， 就 可 以 明确 地 进行 多 播 配 置 。 


命 令 2 K Ko fü x 


SIOCADDMULTI | struct ifreq * | ifioctl | 在 接收 表 里 加 上 多 播 地 址 
SIOCDELMULTI | struct ifreq * | ifioctl | 从 接收 表 里 删 去 多 播 地 址 
图 12-10 多 播 ioct1 命 令 


这 两 个 命令 被 1fioct1( 图 12-11) 直 接 传 给 ifreq 结 构 ( 图 6-12) 中 所 指定 的 接口 的 设备 驱 
动 程序 。 






440 case SIOCADDMULTI: qe 
441 case SIOCDELMULTI: 

442 if (error - suser(p-»p ucred, &p-»p acflag)) 

443 return (error); 

444 if (ifbp-»1f.10€0tl ze NULL) 

445 return (EOPNOTSUPP); 

446 return ((*ifp-»if ioctl) (ifp, cmd, data)); if.c 


图 12-11 ifioct1 函 数 ， 多 播 命令 
440-446 ”如果 该 进程 没有 超级 用 户 权 限 ， 或 者 如 果 接 口 没有 if_ioct1 结 构 ， 则 ifioct1 
返回 一 个 错误 ， 否 则 ， 把 请 求 直接 传 给 该 设备 驱动 程序 。 
12.6 in multi 结 构 


12.4 节 描述 的 以 太 网 多 播 数 据 结构 并 不 专用 于 IP， 它 们 必须 支持 所 有 内 核 支 持 的 任意 协议 
族 的 多 播 活动 。 在 网 络 级 ，IP 维 护 着 一 个 与 接口 相关 的 IP 多 播 组 表 。 
为 了 实现 方便 ， 把 这 个 IP 多 播 表 附 在 与 该 接口 有 关 的 ijn_ifaddr 结 构 中 。6.5 市 讲 到 ， 这 
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个 结构 中 包含 了 该 接口 的 单 播 地 址 。 除 了 它们 都 与 同一 个 接口 相关 以 外 ， 这 个 单 播 地 址 与 所 
附 的 多 播 组 表 之 间 没 有 任何 关系 。 


这 是 Net/3 实 现 的 产品 。 也 可 以 在 一 个 不 接收 IP 单 播 分 组 的 接口 上 上， 支持 IP 多 播 组 。 
图 12-12 中 的 in_multi 结 构 描述 了 每 个 IP 多 播 { 接 口 ， 组 } 对 。 


in var.h 
L11 Struct in multi 1 
112 struct in, addr inm addr; /* IP multicast address */ 
113 struct ifnet *inm ifp; /* back pointer to ifnet */ 
114 strüct in.ifaddr *inm ia; /* back pointer to in ifaddr */ 
115 u int inm refcount; /* no. membership claims by sockets */ 
116 u int inm timer; /* IGMP membership report timer */ 
117 struct in multi *inm next; /* ptr to next multicast address */ 
116 1$ : 
in var.h 


图 12-12 in _ multi 结构 


1. IP 多 播 地 址 
111-118 inm addr 是 一 个 DD 类 多 播 地 址 (如 224.0.0.1， 所 有 主机 组 )。inm ifp 指 回 相 关 接 
口 的 ifnet 结 构 ， 而 inm_ia 指 回 接口 的 in_ ifaddr 结 构 。 

只 有 当 系 统 中 的 某 个 进程 通知 内 核 ， 它 要 在 某 个 特定 的 { 接 口 ， 组 } 对 上 接收 多 播 数 据 报 
时 ， 才 存在 一 个 in_multi 结 构 。 由 于 可 能 会 有 多 个 进程 要 求 接收 发 往 同一 个 对 上 的 数据 报 ， 
所 以 inm_refcount 跟 踪 对 该 对 的 引用 次 数 。 当 没有 进程 对 某 个 特定 的 对 感 兴趣 时 ， 
inm_refcount 就 变 成 9，in_multi 结 构 就 被 释放 掉 。 这 个 动作 可 能 会 引起 相关 的 
ether_multi 结 构 也 被 释放 ， 如 果 此 时 它 的 引用 计数 也 变 成 了 0。 

inm_timer 是 第 13 章 描述 的 IGMP 协 议 实 现 的 一 部 分 ， 最后，inm_next 指 向 表 中 的 下 
—^rin multik. 

图 12-13 用 接口 示例 le_softc [0] 显 示 了 接口 ， 即 它 的 单 播 地 址 和 它 的 卫 多 播 组 表 之 加 

















| ifa next — d 

ARCAM 2224.10.17. 2 224.0..0.. 224.0.0.1 
o inm time 
PAR inm timer inm timer 
pO 


12-13. le 接口 的 一 个 IP 多 播 组 表 
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为 了 清楚 起 见 ， 我 们 已 经 省 略 了 对 应 的 ether_multi 结 构 ( 图 12-34)。 如 果 系 统 有 两 个 
以 太 网 网 卡 ， 第 二 个 可 能 由 le_softc[1] 管 理 ， 还 可 能 有 它 自己 的 附 在 arpcom 结 构 的 多 播 
组 表 。IN_LOOKUP_MULTI 宏 (图 12-14) 搜 索 IP 多 播 表 寻找 某 个 特定 多 播 组 。 

2. IP 多 播 查找 
131-146 IN LOOKUP MULTI 在 与 接口 fp 相关 的 多 播 组 表 中 查找 多 播 组 addr。， 
IFP TO IA 搜索 Internet 地 址 表 ijn ifaddr， 有 寻找 与 接口 fp 相关 的 ijn _ifaddr 结 构 。 如 果 
IFP_TO_IRA 找 到 一 个 接口 ， 则 fo 循环 搜索 它 的 了 P 多 播 表 。 循 环 结束 后 ，inm 为 空 或 指 癌 匹 
配 的 in multi 结构 。 


in var.h 
131 #define IN LOOKUP MULTI(addr, ifp, inm) \ 
132 /* struct in, addr addr; */ \ 
133 /* struct ifnet *ifps *A \ 
134 /* struct in multi *inm;'*/ X 
L39 1 Y 
136 struct in ifaddr *ia; \ 
137 X 
138 IFP TO IA((ifp), ia); \ 
139 if (ia == NULL) A 
140 (inm) = NULL; \ 
141 else \ 
142 for ((inm) = ia-»ia multiaddrs; w 
143 (inm) !- NULL && (inm)-»inm addr.s addr !- (addr).s addr; \ 
144 (inm) = inm-»inm next) \ 
145 continue; \ 
146 ) 


in var.h 


图 12-14 IN LOOKUP MULTIZ: 


12.7 ip moptions 结 构 
运输 层 通 过 ip_moptions 结 构 包 含 的 多 播 选项 控制 多 播 输出 处 理 。 例 如 ，UDP 调 用 


ip OuUtput 是 ; 
error = ip output(m, inp-»inp options, &inp-»inp route, 
inp-»inp socket-»so options & (SO DONTROUTE|SO BROADCAST), 
inp-»inp moptions); 

在 第 22 章 中 我 们 将 看 到 ，inp 指 向 某 个 Internet 协 议 控制 块 PCB)， 并 且 UDP 为 每 个 由 进程 
创建 的 socket 关 联 一 个 PCB。 在 PCB 内 ，inp moptions 是 指向 某 个 ip_moptions 结 构 的 
指针 。 这 里 我 们 看 到 ， 对 每 个 输出 的 数据 报 ， 都 可 以 给 ip_output 传 一 个 不 同 的 
ip_moptions 结 构 。 图 12-15 是 ijp moptions 结 构 的 定义 。 


- - ip_var.h 
100 struct ip_moptions { 
101 struct  ifnet *imo multicast ifp; /* ifp for outgoing multicasts */ 
102 u char imo multicast ttl; /* TTL for outgoing multicasts */ 
103 u_char imo multicast loop; "las -» hear sends if a member */ 
104 u short imo num memberships; /* no. memberships this socket */ 
105 struct in multi *imo membership[IP MAX MEMBERSHIPS]; 
106 ); 

ip var.h 


12-15 ip moptions 结 构 
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多 播 选项 | 
100-106 ip_output 通 过 imo_multicast_ifp 指 向 的 接口 对 输出 的 多 播 数据 报 进行 选 
路 。 如 果 imo_multicast_ifp 为 空 ， 就 通过 目的 站 多 播 组 的 默认 接口 (第 14 章 )。 

imo_multicast_tt1 为 外 出 的 多 播 数 据 报 指定 初始 的 IP TIL。 默 认 值 是 1， 把 多 播 数 
据 报 保留 在 本 地 网 络 内 。 

如 果 imo_multicast_loop 是 0， 就 不 回 送 数据 报 ， 也 不 把 数据 报 提交 给 正在 发 送 的 接 
口 ， 即 使 该 接口 是 多 播 组 的 成 员 。 如 果 imo_multicast_loop 是 1， 并 且 如 果 正 在 发 送 的 接 
口 是 多 播 组 的 成 员 ， 就 把 多 播 数据 报 回 送 给 该 接口 。 

最 后 ， 整 数 jmo num memberships 和 数组 ijmo membership 维 护 与 该 结构 相关 的 { 接 
口 ， 组 } 对 。 所 有 对 该 表 的 改变 都 转告 给 IP， 由 IP 在 所 连 到 的 本 地 网 络 上 宣布 成 员 的 变化 。 
imo_membezrship 数 组 的 每 项 都 是 指向 一 个 in_multi 结 构 的 指针 ， 该 in multi 结构 附 在 
适当 接口 的 jn ifaddr 结 构 上 。 


12.8 多 播 的 插口 选项 
图 12-16 显 示 了 儿 个 IP 级 的 插口 选项 ， 提 供 对 ip_moptions 结 构 的 进程 级 访问 。 


IP MULTICAST IF struct in addr | ip ctloutput | 为 外 出 的 多 播 选择 默认 接口 
IP MULTICAST TTL u char ip ctloutput | 为 外 出 的 多 播 选择 默认 的 TTL 


IP MULTICAST LOOP |u char ip ctloutput | 允许 或 使 能 回 送 外 出 的 多 播 
IP ADD MEMBERSHIP struct ip mreq | ip ctloutput | 加 入 一 个 多 播 组 
IP DROP MEMBERSHIP | struct ip mreq | ip ctloutput | 离开 一 个 多 播 组 


图 12-16 多 播 插口 选项 


我 们 在 图 8-31 中 看 到 ip_ct1loutput 函 数 的 整体 结构 。 图 12-17 显 示 了 与 改变 和 检索 多 播 
选项 有 关 的 情况 语句 。 








ip_output.c 
448 case PRCO SETOPT: m 
449 switch (optname) ( 





486 case IP MULTICAST IF: 


487 case IP MULTICAST TTL: 
488 case IP MULTICAST LOOP: 
489 case IP ADD MEMBERSHIP: 
490 case IP DROP MEMBERSHIP: 
491 error - ip setmoptions(optname, &inp-»inp moptions, m); 
492 break; 

493 freeit: 

494 default: 

495 error - EINVAL; 

496 break; 

497 ) 

498 if (m) 


图 12-17 ip ctloutputHiK A: 多 播 选 项 
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499 (void) m free(m); 
500 break; 

501 case PRCO GETOPT: 

502 switch (optname) ( 





539 case IP MULTICAST IF: 





540 case IP MULTICAST TTL: 
541 case IP MULTICAST LOOP: 
542 case IP ADD MEMBERSHIP: 
543 case IP DROP MEMBERSHIP: 
544 error - ip getmoptions(optname, inp-»inp moptions, mp); 
545 break; 
546 , default: 
547 error - ENOPROTOOPT; 
548 break; 
549 ) , 
ip output.c 
图 12-17 (£x) 


486-491 所 有 多 播 选项 都 由 ip_setmoptions 和 :ip getmoptions 国 数 处 理 。 
ip_moptions 结 构 由 引用 传 给 
539-549 ip getmoptions 和 :ip _setmoptions， 该 结构 与 发 布 toct1 命 令 的 那个 插口 
关联 。 
对 于 PRCO SETOPT 和 PRCO GETOPT 两 种 情况 ， 选 项 不 识别 时 返回 的 差错 码 是 
不 一 样 的 。ENOPROTOOPT 是 更 合理 的 选择 。 


12.9 多 播 的 TTL 值 


多 播 的 TTL 值 难以 理解 ， 因 为 它们 有 两 个 作用 。TTL 值 的 基本 作用 ， 如 IP 分 组 一 样 ， 是 限 
制 分 组 在 互联 网 内 的 生存 期 ， 避 免 它 在 网 络 内 部 无 限 地 循环 。 第 二 个 作用 是 ， 把 分 组 限制 在 
管理 边界 所 指定 的 互联 网 的 某 个 区 域内 。 管 理 区 域 是 由 一 些 主观 的 词语 指定 的 ， 如 “这 个 结 
点 ”,“ 这 个 公司 ”,“ 这 个 州 ”等 ， 并 与 分 组 开始 的 地 方 有 关 。 与 多 播 分 组 有 关 的 区 域 叫 作 它 
的 辖 域 (scope)。 

RFC 1122 的 标准 实现 把 生存 期 和 辖 域 这 两 个 概念 合并 在 IP 首 部 的 一 个 TTL 值 里 。 当 IP 
TTL 变 成 0 时 ， 除 了 丢弃 该 分 组 外 ， 多 播 路 由 器 还 给 每 个 接口 关联 了 一 个 TTL 立 值 ， 限 制 在 该 
接口 上 的 多 播 传输 。 一 个 要 在 该 接口 上 传输 的 分 组 必须 具有 大 于 或 等 于 该 接口 国 值 的 TTL。 
由 于 这 个 原因 ， 多 播 分 组 可 能 会 在 它 的 TTL 到 0 之 前 就 被 丢弃 了 。 

国 值 是 管理 员 在 配置 多 播 路 由 器 时 分 配 的 ， 这 些 值 确 定 了 多 播 分 组 的 辖 域 。 管 理 员 使 用 
的 赋值 策略 以 及 数据 报 的 源 站 与 多 播 接口 之 间 的 距离 定义 多 播 数 据 报 的 初始 TTL 值 的 意义 。 

图 12-18 显 示 了 多 种 应 用 程序 的 推荐 TTL 值 和 推荐 的 国 值 。 

第 一 栏 是 卫 首 部 中 的 ip_tt1 初 始 值 。 第 二 栏 是 应 用 程序 专用 靖 值 ([Casner 1993])。 第 三 
栏 是 与 该 TTL 值 相关 的 推荐 的 辖 域 。 

例如 ， 一 个 要 与 本 地 结 点 外 的 网 络 通信 的 接口 ， 多 播 国 值 要 被 配置 成 322。 所 有 开始 时 
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TIL 为 32( 或 小 于 32) 的 数据 报到 达 该 接口 时 ，TTL 都 小 于 32( 假 定 源 站 和 路 由 右 之 间 至 少 有 一 
跳 )， 所 以 它们 在 被 转发 到 外 部 网 络 之 前 ， 都 被 丢弃 了 一 一 即使 ITL 远 大 于 0。 

TIL 初 始 值 是 128 的 多 播 数 据 报 可 以 通过 国 值 为 32 的 结 点 接口 (只 要 它 以 少 于 128-32=96 跳 
到 达 接 口 )， 但 将 被 园 值 为 128 的 洲际 接口 丢弃 。 


IETF 频 道 2 视频 
IETF 频 道 1 视 频 


IETF 频 道 2 音 频 

IETF 频 道 1 音频 

IETF 频 道 2 低 速率 音频 

IETF 频 道 1 低 速率 音频 ， 辖 域 不 受 限 


图 12-18 IP 多 播 数 据 报 的 TTL 值 





12.9.1 MBONE 


Internet 上 有 一 个 路 由 器 子 网 支持 IP 多 播 选 路 。 这 个 多 播 骨 干 网 称 为 MBONE,[Casner 
1993] 对 其 做 了 拉 述 。 它 是 为 了 文 持 用 IP 多 播 的 实验 一 一 尤其 是 用 音频 和 视频 数据 流 的 实验 。 
在 MBONE 里 ， 赚 值 限 制 了 多 种 数据 流传 播 的 距离 。 在 图 12-18 中 ， 我 们 看 到 本 地 事件 视频 分 
组 总 是 以 TTL 31 开 始 。 国 值 为 32 的 接口 总 是 阻止 本 地 事件 视频 。 另 外 ，IETF 频 道 1 低速 率 音 
P. 只 受到 IP TTL 固 有 的 最 大 255 跳 的 限制 。 它 能 传播 通过 整个 MBONE。MBONE 内 的 路 由 

絮 的 管理 员 可 以 选择 病 值 ， 有 选择 地 接受 或 丢弃 MBONE 数 据 流 。 


12.9.2 扩展 环 搜索 


多 播 TTL 的 男 一 种 用 处 是 , 只 要 改变 探测 数据 报 的 初始 TTL 值 , 就 能 在 互联 网 上 探测 资源 。 
这 个 技术 叫 作 扩展 环 搜索 (expanding-ring search, [Boggs 1982])。 初 始 TTL 为 0 的 数据 报 只 能 
到 达 与 外 出 接口 相关 的 本 地 网 络 上 的 一 个 资源 ，TTL 为 1!1， 则 到 达 本 地 子 网 (如 果 存 在 ) 上 的 资 
源 ，TTL 为 2， 则 到 达 相 中 2 跳 的 资源 。 应 用 程序 指数 地 增加 TIL 的 值 ， 迅 速 地 在 大 的 互联 网 上 
探测 资源 。 

RFC 1546 [Partridge、Mendez 和 Milliken 1993] 描述 了 一 种 相关 业务 的 任 播 
(anycasting)。 任 播 依 赖 一 组 显著 的 IP 地 址 来 表示 更 像 多 播 的 多 个 主机 的 组 。 与 多 播 
地 址 不 同 ， 网 络 必须 传播 所 有 任 播 的 分 组 ， 直 到 和 它 被 至 少 一 个 主机 接收 。 这 样 简化 
了 应 用 程序 的 实现 ， 不 再 进行 扩展 环 搜索 。 


12.10 ip setmoptionsiA/Zi 


ip setmoptions 畏 数 块 包括 一 个 用 来 处 理 各 选项 的 switch 语 句 。 图 12-19 是 
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ip_setmoptions 的 开始 和 结束 。 下 面 几 节 讨论 switch 的 语句 体 。 








a fue ip output.c 
651 ip setmoptions(optname, imop, m) 
652 int optname; 
653 struct ip moptions **imop; 
654 struct mbuf *m; 
655 ( 
656 int error z 0; 
657 u_char loop; 
658 int 1; 
659 struct in addr addr; 
660 struct ip mreq *mreq; 
661 struct ifnet *ifp; 
662 struct ip moptions *imo - *imop; 
663 struct route ro; 
664 struct sockaddr in *dst; 
665 if (imo -- NULL) ( 
666 y? 
667 * No multicast option buffer attached to the pcb; 
668 * allocate one and initialize to default values. 
669 2y 
670 imo = (struct ip moptions *) malloc(sizeof(*imo), M IPMOPTS, 
671 M WAITOK); 
672 if.(imo ss NULL) 
673 return (ENOBUFS); 
674 *imop 三 imo; 
675 imo-»imo multicast ifp = NULL; 
676 imo-»imo multicast ttl = IP DEFAULT MULTICAST TTL; 
677 imo-»imo multicast loop - IP DEFAULT MULTICAST LOOP; 
678 imo-»imo num memberships = 0; 
679 ) 
680 switch (optname) { 
SD. E CU OU A 00D HUP 
/* switch cases- */ ...- ve uic eee Un 
857 default: 
858 error - EOPNOTSUPP; 
859 break; 
860 ) 
861 r* 
862 * If all options have default values, no need to keep the mbuf. 
863 y 
864 if (imo-»imo multicast ifp -- NULL && 
865 imo-»imo multicast ttl == IP DEFAULT MULTICAST TTL && 
866 imo-»imo multicast loop == IP DEFAULT MULTICAST LOOP && 
867 imo-»imo num memberships == 0) ( 
868 free(*imop, M IPMOPTS); 
869 *imop - NULL; 
870 ) 
871 return (error); 
872 ) 


ip output.c 
图 12-19 ip _setmoptions 国 数 


650-664 第 一 个 参数 ，optname， 指 明正 在 改变 哪个 多 播 参数 。 第 二 个 参数 ，imop， 征 
指向 某 个 ip_motions 结 构 的 指针 。 如 果 *imop 不 空 ，ip_setmoptions 修 改 它 所 指向 的 
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结构 。 否 则 ，ip_setmoptions 分 配 一 个 新 的 ip_moptions 结 构 ， 并 把 它 的 地 址 保存 在 
*imop 里 。 如 采 疫 有 内 存 了 ，ip_setmoptions 立 即 返 回 BENOBUEFS。 后 面 的 所 有 错误 都 通 
告 ertoz，erLzor 在 畏 数 的 最 后 被 返回 给 调用 方 。 第 三 个 参数 ，m， 指 向 存放 要 改变 选项 数 
据 的 mbuf( 图 12-16 的 第 二 栏 )。 

1. 构造 默认 值 
665-679 当 分 配 一 个 新 的 ip _moptions 结 构 时 ，ip_setmoptions 把 默认 的 多 播 接口 指 
针 初 始 化 为 空 ， 把 默认 TTL 初 始 化 为 1IP_DEEFRULT_MULTICRST_TTL)， 使 能 多 播 数 据 报 
的 回 送 ， 并 清除 组 成 员 表 。 有 了 这 些 默认 值 后 ，ip_output 查 询 路 由 表 选 择 一 个 输出 的 接口 ， 
多 播 被 限制 在 本 地 网 络 中 ， 并 且 ， 如 果 输 出 的 接口 是 目的 多 播 组 的 成 员 ， 则 系统 将 接收 它 自 
己 的 多 播发 送 。 

2. 进程 选项 
680-860 ip setmoptions 体 由 一 个 switch 语 句 组 成 ， 其 中 对 每 种 选项 都 有 一 个 case 
语句 。default 情 况 ( 对 未 知 选 项 ) 把 error 设 成 EOPNOTSUPP。 

3. 如 果 默 认 值 是 OOK， 丢弃 结构 
861-872 switch 语句 之 后 ，ip_setmoptions 检 查 ip moptions 结 构 。 如 果 所 有 多 播 
选项 与 它们 对 应 的 默认 值 匹配 ， 就 不 再 需要 该 结构 ， 将 其 释放 。ip_setmoptions 返 回 0 或 
公布 的 差错 码 。 


12.10.1 选择 一 个 明确 的 多 播 接 口 : IP MULTICAST IF 


"optnamezÉIP MULTICAST _ IE 时 ， 传 给 ip_setmoptions 的 mbuf 中 就 包含 了 多 播 
接口 的 单 播 地 址 ， 该 地 址 指定 了 在 这 个 插口 上 发 送 的 多 播 所 使 用 的 特定 接口 。 图 12-20 是 这 个 
选项 的 程序 。 


681 case IP MULTICAST IF: T. onpute 
682 [* 

683 * Select the interface for outgoing multicast packets. 
684 */ 

685 if (m == NULL || m-»m len !- sizeof (struct in addr)) ( 
686 error - EINVAL; 

687 break; 

688 ) 

689 addr = *(mtod(m, struct in addr *)); 

690 pt 

691 * INADDR ANY is used to remove a previous selection. 
692 * When no interface is selected, a default one is 

693 * chosen every time a multicast packet is sent. 

694 ui 

695 if (addr.s addr == INADDR ANY) ( 

696 imo-»imo multicast ifp = NULL; 

697 break; 

698 ) 

699 p* 

700 * The selected interface is identified by its local 
TOL * IP address. Find the interface and confirm that 
702 * it supports multicasting. 

703 =y 


图 12-20 ip setmoptionstKZk: 选择 多 播 输出 接口 
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704 INADDR TO IFP(addr, ifp); 
705 if (ifp == NULL || (ifp-sif_flags & IFF MULTICAST) == 0) { 
706 error = EADDRNOTAVAIL; 
707 break; 
708 } 
709 imo-»imo multicast ifp = ifp; 
710 break; . 
ip output.c 
图 12-20 (£x) 
1. 验证 


681-698 如果 没 有 提供 mbuf,， 或 者 mbuf 中 的 数 不 是 一 个 jn_addr 结 构 的 大 小 ， 则 
ip_setmoptions 通 告 一 个 EINVAL 差 错 ; 否则 把 数据 复制 到 adqdqr。 如 果 接 口 地 址 是 
INADDR_ANY， 则 丢弃 所 有 前 面 选 定 的 接口 。 对 后 面 用 这 个 ijp_moptions 结 构 的 多 播 ， 将 
根据 它们 的 目的 多 播 组 进行 选 路 ， 而 不 再 通过 一 个 明确 命名 的 接口 (图 12-40)。 
2. 选择 默认 接口 

699-710 如 果 addr 中 有 地 址 ， 就 由 INADDR_TO_IFP 找 到 匹配 接口 的 位 置 。 如 果 找 不 到 匹 
配 或 接口 不 支持 多 播 ， 就 发 布 EADDRNOTAVAIL。 否则 ， 匹 配 接口 i fp 成 为 与 这 个 
ip_moptions 结 构 相 关 的 输出 请 求 的 多 播 接口 。 


12.10.2 选择 明确 的 多 播 TTL: IP MULTICAST TTL 


当 optname 是 IP MULTICAST TTL 肝 ,缓存 中 有 一 个 字 市 指定 输出 多 播 的 IP TTL, xx 
个 TTL 是 ip_output 在 每 个 发 往 相 关 插 口 的 多 播 数 据 报 中 插入 的 。 图 12-21 是 该 选项 的 程序 。 


ip_output.c 
PLL case IP MULTICAST TTL: 
212 /* 
713 * Set the IP time-to-live for outgoing multicast packets. 
714 * f 
715 if (i == NULL [| i-»m len !z 1) ( 
716 error - EINVAL; 
TL7 break; 
718 } 
719 imo-»imo multicast ttl = *(mtod(m, u char *)); 
720 break; 
ip output.c 


图 12-21 ip setmoptionsrKZy: 选择 明确 的 多 播 TTL 


验证 和 选项 默认 的 TTL 
711-720 ”如果 缓存 中 有 一 个 字 市 的 数据 ， 就 把 它 复制 到 ijmo_multicast_ttl。 人 否则 ,发 
布 EINVRAL 。 


12.10.3 选择 多 播 环 回 : IP MULTICRAST LOOP 


通常 ， 多 播 应 用 程序 有 两 种 形式 : 
“一 个 系统 内 一 个 发 送 方 和 多 个 远程 接收 方 的 应 用 程序 。 这 种 配置 中 ， 只 有 一 个 本 地 进程 
向 多 播 组 发 送 数据 报 ， 所 以 无 须 回 送 输出 的 多 播 。 这 样 的 例子 有 多 播 选 路 守护 进程 和 会 
议 系统 。 

. 一 个 系统 内 的 多 个 发 送 方 和 接收 方 。 必 须 回 送 数据 报 ， 确 保 每 个 进程 接收 到 系统 其 他 发 
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送 方 的 传送 。 
IP MULTICRAST LOOP 选项 (图 12-22) 为 ipP_moptions 结构 选择 回 送 策略 。 
ip output.c 
721 case IP_MULTICAST_LOOP: 
722 [* 
723 * Set the loopback flag for outgoing multicast packets. 
724 * Must be zero or one. 
T29 a i 
726 if (m == NULL || m->m_len != 1 || 
22T (LOOD s *{mtod(m, u cbar *))) » 1) 1 
728 error - EINVAL; 
729 break; 
730 ) 
T2341 imo-»imo multicast loop = loop; 
732 break; 
ip output.c 


图 12-22 ip setmoptions $t: 选择 多 播 环 回 


验证 和 选择 环 回 策略 
721-732 如 果 m 为 空 ， 或 者 没有 1 字 市 数据 ， 或 者 该 字 市 不 是 0 或 1， 就 发 布 EINVAL。 否 则 ， 
把 该 字 节 复制 到 imo_multicast_loop。0 指 明 不 要 把 数据 报 回 送 ，1 人 允许 环 回 机 制 |。 

图 12-23 显 示 了 多 播 数 据 报 的 最 大 辖 域 值 之 间 的 关系 : imo_multicast_tt1l 和 


imo multicast loop, 


Recipients 
imo multicast- 
Outgoing Local Remote Other 
Interface? | Network? | Networks? | Interfaces? 





图 12-23 环 回 和 TTL 对 多 播 辖 域 的 影响 


图 12-23 显 示 了 根据 发 送 的 环 回 策略 ， 指 定 的 TTL 值 接收 多 播 分 组 的 接口 的 设置 。 如 末 硬 
件 接收 自己 的 发 送 ， 则 不 管 采用 什么 环 回 策 略 ， 都 接收 分 组 。 数 据 报 可 能 通过 选 路 罕 过 该 网 
络 ， 并 到 达 与 系统 相连 的 其 他 接口 (习题 12.6)。 如 果 发 送 系统 本 身 是 一 个 多 播 路 由 器 ， 输 出 的 
分 组 可 能 被 转发 到 其 他 接口 ， 但 是 ， 只 有 一 个 接口 接受 它们 进行 输入 处 理 (第 14 章 )。 


12.11 加 入 一 个 IP 多 播 组 


除了 内 核 自 动 加 入 (图 6-17) 的 卫 所 有 主机 组 外 , 其 他 组 成 员 是 由 进程 明确 发 出 请 求 产生 的 。 
加 入 (或 离开 ) 多 播 组 选项 比 其 他 选项 更 多 使 用 。 必 须 修 改 接口 的 in_multi 表 以 及 其 他 链 路 层 
多 播 结 构 ， 如 我 们 在 以 太 网 中 讨论 的 ether_multi。 

当 optname 是 IP ADDMEMBERSHIP 时 ，mbuf 中 的 数据 是 一 个 如 图 12-24 所 示 的 
ip_mreq 结 构 。 


in.h 
148 struct ip mreq ( 
149 struct in addr imr multiaddr; /* IP multicast address of group */ 
150 struct in_addr imr interface; /* local IP address of interface */ 
ESL F4 
in.h 


图 12-24 ip _mreq 结 构 
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148-151 imr multiaddr 指 定 多 播 组 ， imr interface 用 相关 的 单 播 IP 地 址 指定 接口 。 
ip_mreq 结 构 指 定 { 接 口 ， 组 } 对 表示 成 员 的 变化 。 
图 12-25 显 示 了 加 入 和 离开 与 我 们 的 以 太 网 接口 例子 相关 的 多 播 组 时 ， 所 调用 的 函数 。 


setsockopt getsockopt 


ip .setmoptions 








in addmulti 


first join request last leave request 


Ígmp joingroup 





loioctl 
SIOCADDMULTI SIOCDELMULTI 


ether, addmulti ether delmulti 


图 12-25 加 入 和 离开 一 个 多 播 组 
我 们 从 ip _setmoptions( 图 12-26) 的 ITP_ADD_MEMBERSHIP 情 况 开 始 ， 在 这 里 修改 
ip moptions 结 构 。 然 后 我 们 跟踪 请 求 通过 IP 层 、 以 太 网 驱动 程序 ， 一 直到 物理 设备 一 一 在 
这 里 ， 是 LANCE 以 太 网 网 卡 。 


ip_output.c 
733 case IP ADD MEMBERSHIP: 
734 y? 
735 * Add a multicast group membership. 
736 * Group must be a valid IP multicast address. 
T37 xy 
738 if (m == NULL || m-»m len !- sizeof (struct ip mreq)) A 
739 error - EINVAL; 
740 break; 
741 ) 
742 mreq - mtod(m, struct ip mreq *); 
743 if (!IN MULTICAST(ntohl(mreq-»imr multiaddr.s addr))) ( 
744 error - EINVAL; 
745 break; 
746 ) 
747 /* 
748 * If no interface address was provided, use the interface of 
749 * the route to the given multicast address. 
750 id; 
751 if (mreq-»imr interface.s addr == INADDR ANY) { 
752 roro rt s NULL; 
753 dst - (struct sockaddr in *) &ro.ro dst; 
754 dst-»sin len = sizeof(*dst); 
755 dst-»sin family = AF INET; 


图 12-26 ip setmoptionstKZk: 加 入 一 个 多 播 组 
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756 dst-»sin addr - mreq-»imr multiaddr; 
757 rtalloc(&ro); i 
758 if (ro.ro rt == NULL) ( 
759 error - EADDRNOTAVAIL; 
760 break; 
761 ) 
762 ifp = ro.ro rt-»rt ifp:; 
763 rtfree(ro.ro rt); 
764 ) else ( 
765 INADDR TO IFP(mreq--imr interface, ifp); 
766 ) 
767 ,* 
768 * See if we found an interface, and confirm that it 
769 * supports multicast. 
770 "3 
771 if (ifp == NULL || (ifp-»if flags & IFF MULTICAST) == 0) ( 
LEZ error = EADDRNOTAVAIL; 
7713 break; 
7774 ) 
T9 A” 
776 * See if the membership already exists or if all the 
7717 * membership slots are full. 
778 a 
779 for (i = 0; i < imo-»imo num memberships; ++i) ( 
780 if (imo-»imo membership[i]-»inm ifp == ifp && 
781 imo-»imo membership[i]-»inm addr.s addr 
782 == mreq-»imr multiaddr.s addr) 
783 break; 
784 } 
785 if (i < imo->imo_num_memberships) { 
786 error = EADDRINUSE; 
787 break; 
788 } 
789 if (i == IP_MAX_MEMBERSHIPS) { 
790 error = ETOOMANYREFS; 
791 break; 
792 } 
793 rt 
794 * Everything looks good; add a new record to the multicast 
795 * address list for the given interface. 
796 ui 
797 if ((imo-»imo membership[i] = 
798 in addmulti(&mreq-»-imr multiaddr, ifp)) == NULL) ( 
799 error - ENOBUFS; 
800 break; 
801 } 
802 ++imo->imo_num_memberships; 
803 break; : 
ip output.c 
[12-26 (£x) 
1. 验证 


733-746 ip_setmoptions 从 验证 该 请 求 开始 。 如 果 没 有 传 给 mbuf， 或 缓存 的 大 小 不 对 ， 
或 结构 的 地 址 (imz_multiaddzr) 不 是 一 个 多 播 组 地 址 ， 则 ip setmoptions 发 布 ENIVAL。 
MreGg 指 各 有 效 ip_mreg 地 址 。 


2. 找到 接口 
747-774 如 果 接 口 的 单 播 地 址 (imr_interface) 是 INADDR_RANY， 则 ip setmoptions 
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必须 找到 指定 组 的 默认 接口 。 该 多 播 组 构造 一 个 route 结 构 ， 作 为 目的 地 址 ， 并 传 给 
rtalloc， 由 rtalloc 为 多 播 组 找到 一 个 路 由 器 。 如 果 没 有 路 由 器 可 用 ， 则 请 求 失 败 ， 产 生 
错误 ERADDRNOTRVRAIL。 如 果 找 到 路 由 器 ， 则 在 ifp 中 保存 指向 路 由 器 外 出 接口 的 指针 ， 而 
不 再 需要 路 由 条 目 ， 将 其 释放 。 

如 果 imr interface 不 是 INADDR _ANY， 则 请 求 一 个 明确 的 接口 。INADDR TO_IFP 
宏 用 请 求 的 单 播 地 址 搜索 接口 。 如 果 没 有 找到 接口 或 者 它 支持 多 播 ， 则 请 求 失 败 ， 产 生 错 误 


EADDRNOTAVAIL, 


8.5% i£ T route£àJ4, 19.2%% 7 rtalloch%, %14% ik [| Mh 
择 表 选择 多 播 接 口 。 


3. 已 经 是 成 员 了 吗 
775-792 对 请 求 做 的 最 后 检查 是 检查 ijmo_membership 数 组 ， 看 看 所 选 接口 是 否 已 经 古 请 
求 组 的 成 员 。 如 果 Eoz 循 环 找到 一 个 匹配 ， 或 者 成 员 数 组 为 空 ， 则 发 布 EADDRINUSE 或 
ETOOMANYREFS, ， 并 终止 对 这 个 选项 的 处 理 。 

4. 加 入 多 播 组 
793-803 此 时 ， 请 求 似乎 是 合理 的 了 。in_addqmulti 安 排 IP 开 始 接收 该 组 的 多 播 数 据 报 。 
in_addmulti 返 回 的 指针 指向 一 个 新 的 或 已 存在 的 in_multi 结 构 ( 图 12-12)， 该 结构 位 于 
接口 的 多 播 组 表 中 。 这 个 结构 被 保存 在 成 员 数 组 中 ， 并 且 把 数组 的 大 小 加 1。 


12.11.1 in addmulti 函 数 


in addmulti 和 相应 的 jn_ delmulti( 图 12-27 和 图 12-36) 维 护 接口 已 加 入 多 播 组 的 
表 。 加 入 请 求 或 者 在 接口 表 中 增加 一 个 新 的 in_multi 结 构 ， 或 者 增加 对 某 个 已 有 结构 的 
引用 次 数 。 


in.c 

469 struct in multi * 

470 in addmulti(ap, ifp) 

471 struct in addr *ap; 

472 struct ifnet *ifp; 

473 ( 

474 struct in multi *inm; 

475 struct ifreq ifr; 

476 struct in ifaddr *ia; 

477 int s = splnet(); 

478 Er" 

479 * See if address already in list. 

480 t d 

481 IN LOOKUP MULTI(*ap, ifp, inm); 

482 if (inm t= NULL) ( 

483 £T 

484 * Found it; just increment the reference count. 

485 *7 

486 ++inm->1inm refcount; 

487 ) else ( 
mE 


图 12-27 in addmultit&Z&: 前 半 部 分 


1. 已 经 是 一 个 成 员 了 
469-487 ip _setmoptions 已 经 证 实 ap 指向 一 个 D 类 多 播 地 址 ，ifp 指 癌 一 个 能 够 多 播 的 
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接口 。IN_LOOKUP_MULTI( 图 12-14) 确 定 接口 是 否 已 经 是 该 组 的 一 个 成 员 。 如 果 是 ， 则 
in_addmu1lti 更 新 引用 计数 后 返回 。 
如 果 接 口 还 不 是 该 组 的 成 员 ， 则 执行 图 12-28 中 的 程序 。 


in.c 

487 ) else ( 

488 yg 

489 * New address; allocate a new multicast record 

490 * and link it into the interface's multicast list. 

491 ui 

492 inm - (struct in multi *) malloc(sizeof(*inm), 

493 M IPMADDR, M, NOWAIT); 

494 if (inm ss NULL) ( 

495 Splix(s); 

496 return (NULL); 

497 ) 

498 inm-»inm addr = *ap; 

499 inm-»inm ifp = ifp; 

500 inm-»inm refcount - 1; 

501 IFP TO IA(ifp, ia); 

502 if (ia == NULL) ( 

503 free(inm, M IPMADDR); 

504 splx (s); 

505 return (NULL); 

506 } 

507 inm->inm_ia = ia; 

508 inm->inm_next = ia->ia_multiaddrs; 

509 ia-»ia multiaddrs = inm; 

510 y* 

511 * Ask the network driver to update its multicast reception 

512 * filter appropriately for the new address. 

513 * 

514 ( (struct sockaddr in *) &ifr.ifr addr)-»sin family = AF. INET; 

515 ((struct sockaddr in *) &ifr.ifr addr)-»sin, addr - *ap; 

516 if ((ifp-»if ioctl == NULL) || 

517 (*ifp-»if ioctl) (ifp, SIOCADDMULTI, (caddr. t) & ifr) ts 0) ( 

518 ia-»ia multiaddrs = inm-»inm next; 

519 free(inm, M IPMADDR); 

520 splx (s); 

521 return (NULL); 

522 ) 

523 P" 

524 * Let IGMP know that we have joined a new IP multicast group. 

525 Sf 

526 igmp joingroup(inm); 

527 ) 

528 splx(s); 

529 return (inm); 

530 ) ; 
in.c 


12-28 in addmulti Mý: 后 半 部 分 


2. 更 新 in_mulLti 表 
487-509 如果 接 口 还 不 是 成 员 ， 则 ijn_adqmulti 分 配 并 初始 化 一 个 新 的 jn_multi 结 构 ， 
把 该 结构 插 到 接口 的 in_ifaddr( 图 12-13) 结 构 中 ia_multiaddrs 表 的 前 端 。 

3. 更 新 接口 ， 通 告 变 化 
510-530 如 果 接 口 驱 动 程序 已 经 定义 了 一 个 if_ioct1 图 数 ， 则 in_addmulti 构造 一 个 


$B12* IP 多 4 


267 


包含 了 该 组 地 址 的 ifzeqg 结 构 ( 图 4-23)， 并 把 SIOCRADDMULTI 请 求 传 给 接口 。 如 采 接 口 拒 绝 
该 请 求 ， 则 把 in_multi 结 构 从 链表 中 断 开 ， 释 放 掉 。 最 后 ，in_addmulti 调 用 


igmp joingroup， 把 成 员 变 化 信息 传播 给 其 他 主机 和 路 由 兹 。 


in_addqmulti 返 回 一 个 指针 ， 该 指针 指向 in_multi 结 构 ， 或 者 如 有 果 出 错 ， 则 为 空 。 


12.11.2 slioct1 和 1loioct1 函 数 : SIOCRDDMULTI 和 SIOCDELMULTI 


SLIP 和 环 回 接口 的 多 播 组 处 理 很 简单 : 除了 检查 差错 外 ， 不 做 其 他 事情 。 图 12-29 显 示 了 


SLIP 处 理 。 
673 case SIOCADDMULTI: 
674 case SIOCDELMULTI: 
675 ifr e (struct ifreq' *) data; 
676 XL (LEF se D) f 
677 error - EAFNOSUPPORT; [* XXX *J/ 
678 break; 
679 ) 
680 switch (ifr-»ifr addr.sa family) ( 
681 case AF INET: 
682 break; 
683 default: 
684 error - EAFNOSUPPORT; 
685 break; 
686 ) 
687 break; 


图 12-29 slioctli&Zt. 多 播 处 理 


673-687 不 管 请 求 为 空 还 是 不 适用 于 AF_INET 协 议 族 ， 都 返回 ERAEFNOSUPPORT。 


图 12-30 显 示 了 环 回 处 理 。 


152 case SIOCADDMULTI: 

153 case SIOCDELMULTI: 

154 ifr s (struct ifreq *) data; 

155 if (ifr == 0) ( 

156 error - EAFNOSUPPORT; ]" XXX *J 
L97 break; 

158 } 

159 switch (ifr-»ifr addr.sa family) ( 
160 case AF INET: 

161 break; 

162 default: 

163 error - EAFNOSUPPORT; 

164 break; 

165 ) 

166 break; 


图 12-30 lioctlrKZ: 多 播 处 理 


if sl.c 


if sl.c 


if loop.c 


if loop.c 


152-166 环 回 接口 的 处 理 等 价 于 图 12-29 中 SLIP 的 程序 。 不 管 请 求 为 空 还 是 不 适用 于 


AF INET 协 议 族 ， 都 返回 EAFNOSUPPORT。 
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12.11.3 leioctlijZEi. SIOCADDMULTI 和 SIOCDELMULTI 


在 图 4-2 中 ， 我 们 讲 到 LANCE 以 太 网 驱动 程序 的 1eioct1 和 if_ioct1 国 数 。 图 12-31 是 
处 理 SIOCADDMULTI 和 SIOCDELMULTI 的 程序 。 


if le.c 
657 case SIOCADDMULTI: 
658 case SIOCDELMULTI: 
659 /* Update our multicast list  */ 
660 error = (cmd == SIOCADDMULTI) ? 
661 ether addmulti((struct ifreq *) data, &le-»sc ac) : 
662 ether delmulti((struct ifreq *) data, &le-»sc ac); 
663 if (error -- ENETRESET) ( 
664 y* 
665 * Multicast list has changed; set the hardware 
666 * filter accordingly. 
667 wJ 
668 lereset (ifp->if_unit); 
669 error = 0; 
670 ) 
671 break; 
if le.c 
12-31 leioct1 国 数 : 多 播 处 理 


657-671 leioct1 把 增加 和 删除 请 求 直 接 传 给 ether_addqmu1lLti 或 ether delmultirfü 
数 。 如 果 请 求 改变 了 该 物理 硬件 必须 接收 的 卫 多 播 地 址 集 ， 则 两 个 国 数 都 返回 ENETRESET。 
如 果 发 生 了 这 种 情况 ， 则 1eioct1 调 用 lereset， 用 新 的 多 播 接收 表 重 新 初始 化 该 硬件 。 
我 们 没有 显示 lereset， 因 为 它 是 LANCE 以 太 网 硬件 专用 的 。 对 多 播 来 说 ， 
lereset 安 排 硬件 接收 所 有 寻 址 到 ether_multi 中 与 该 接口 相关 的 多 播 地 址 的 帧 。 
如 果 多 播 表 中 的 每 个 条 目 是 一 个 地 址 ， 则 LANCE 驱 动 程序 采用 散 列 机 制 。 散 列 程序 
使 硬件 可 以 有 选择 地 接收 分 组 。 如 果 驱 动 程序 发 现 某 个 条 目 是 一 个 地 址 范围 ， 它 废 
除 散 列 策略 ， 配 置 硬件 接收 所 有 多 播 分 组 。 如 果 驱 动 程序 必须 回 到 接收 所 有 以 太 网 
多 播 地 址 的 状态 ，lereset 就 在 返回 时 把 IFP _ALLMULTI 标 志 位 置 位 。 


12.11.4 ether addmulti 了 函数 


所 有 以 太 网 驱动 程序 都 调用 ether_addmulti 畏 数 处 理 SIOCRADDMULTI 请 求 。 这 个 图 
数 把 IP D 类 地 址 映射 到 合适 的 以 太 网 多 播 地 址 (图 12-5) 上 ， 并 更 新 ether_multi 表 。 图 12-32 


ether multik% E. 
1. 初始 化 地 址 范围 


366-399 首先 ，ether addqmulti 初 始 化 addrlo 和 addqrhi (两 者 都 是 六 个 无 符号 字符 ) 
中 的 多 播 地 址 范围 。 如 果 所 请 求 的 地 址 来 目 AF_UNSPEC 族 ，ether_addmulti 假 定 该 地 址 
是 一 个 明确 的 以 太 网 多 播 地 址 ， 并 把 它 复制 到 adadqrlo 和 adadarhi 中 。 如 果 地 址 属于 AF_INET 
族 ， 并 且 是 INRDDR ANY (0.0.0.0, ether addmultijt addr1077) 4 [f£ kk 
ether ipmulticast min,， 把 addrhi 初 始 化 成 ether ipmulticast max。 这 两 个 以 


太 网 地 址 常量 定义 为 : 
u_char ether ipmulticast min[6] 
u_char ether ipmulticast max[6] 


( 0x01, 0x00, Ox5e, 0x00, 0x00, 0x00 }; 
[ 0x01, 0x00, 0x5e, Ox7f, OXT; Oxff ); 
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if ethersubr.c 
366 int 


367 ether addmulti(ifr, ac) 
368 struct ifreq *ifr; 
369 struct arpcom *ac; 


370 ( 

3171 struct ether multi *enm; 

372 struct sockaddr in *sin; 

373 u_char addrlo[6]; 

374 u char addrhi[6]; 

37S int s = splimp(); 

376 switch (ifr-»ifr addr.sa family) ( 

377 case AF UNSPEC: 

378 bcopy(ifr-»ifr addr.sa data, addrlo, 6); 

379 bcopy(addrlo, addrhi, 6); 

380 break; 

381 case AF INET: 

382 sin = (struct sockaddr in *) &(ifr-»ifr addr); 

383 if (sin-»sin addr.s addr == INADDR ANY) ( 

384 y* 

385 * An IP address of INADDR, ANY means listen to all 
386 * of the Ethernet multicast addresses used for IP. 
387 * (This is for the sake of IP multicast routers.) 
388 "jg 

389 bcopy(ether ipmulticast min, addrlo, 6); 

390 bcopy(ether ipmulticast max, addrhi, 6); 

391 ) else ( 

392 ETHER, MAP IP MULTICAST(&sin-»sin addr, addrlo); 
393 bcopy(addrlo, addrhi, 6); 

394 ) 

395 break; 

396 default: 

397 splx (s); 

398 return (EAFNOSUPPORT); 

399 } 


if_ethersubr.c 
图 12-32 ether addmulti t: 前 一 半 


与 etherbroadcastaddr(4.3 节 ) 一 样 ， 这 是 一 个 很 方便 地 定义 一 个 48 bit 常 量 
IP 多 播 路 由 如 必须 监听 所 有 IP 多 播 。 把 组 指定 为 INADDR_ANY， 被 认为 是 请 求 加 入 所 有 
IP 多 播 组 。 在 这 种 情况 下 ， 所 选择 的 以 太 网 地 址 范围 跨越 了 分 配给 IANA 的 整个 IP 多 播 
地 址 块 。 
3$ mrouted (8) 守 护 程序 开始 对 到 多 播 接口 的 分 组 进行 路 选 时 ， 它 用 
INRDDR_RANY 发 布 一 个 SIOCRDDMULTI 请 求 。 
ETHER_MRAP_IP_MULTICRAST 把 其 他 特定 的 了 PP 多 播 组 映射 到 合适 的 以 太 网 多 播 地 址 。 当 
发 生 EAFNOSUPPORT 错 误 时 ， 将 拒绝 对 其 他 地 址 族 的 请 求 。 
尽管 以 太 网 多 播 表 支持 地 址 范围 ， 但 是 除了 列举 出 所 有 地 址 外 ， 进 程 或 内 核 无 法 对 某 个 
特定 范围 提出 请 求 ， 因 为 总 是 把 addrlo 和 addrhi 设 成 同一 值 。 
ether_addmulti 的 第 二 部 分 ， 显 示 如 图 12-33， 证 实地 址 范围 ， 并 且 ， 如 果 该 地 址 是 
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新 的 ， 就 把 它 加 入 表 中 。 


if ethersubr.c 
400 £F" 
401 * Verify that we have valid Ethernet multicast addresses. 
402 sy 
403 if ((addrlo[0] & 0x01) t= 1 || (addrhi[0] & 0x01) t= 1) ( 
404 splx(s); 
405 return (EINVAL); 
406 ) 
407 /* 
408 * See if the address range is already in the list. 
409 "y 
410 ETHER, LOOKUP. MULTI(addrlo, addrhi, ac, enm); 
411 if (enm !- NULL) ( 
412 f* 
413 * Found it; just increment the reference count. 
414 *4 
415 --enm-»enm refcount; 
416 splix(s); 
417 return (0); 
418 ) 
419 fe 
420 * New address or range; malloc a new multicast record 
421 * and link it into the interface's multicast list. 
422 ui / 
423 enm = (struct ether multi *) malloc(sizeof(*enm), M IFMADDR, M NOWAIT); 
424 if (enm -- NULL) ( 
425 splx (s); 
426 return (ENOBUFS); 
427 ) 
428 bcopy(addrlo, enm-»enm addrlo, 6); 
429 bcopy(addrhi, enm-»enm addrhi, 6); 
430 enm-»enm ac - ac; 
431 enm-»enm refcount - 1; 
432 enm-»enm next = ac-»ac multiaddrs; 
433 ac-»ac multiaddrs = enm; 
434 ac-»ac multicnt-4-*; 
435 splxí(s); 
436 y" 
437 * Return ENETRESET to inform the driver that the list has changed 
438 * and its reception filter should be adjusted accordingly. - 
439 "E 
440 return (ENETRESET); 
441 ) 
if ethersubr.c 
图 12-33 ether addmulti ýt: 后 一 半 
2. 已 经 在 接收 


400-418 ether_addqmulti 检 查 高 地 址 和 低地 址 的 多 播 比特 位 (图 4-12)， 保 证 它们 是 真正 
的 以 太 网 多 播 地 址 。ETHER_LOOKUP_MULTI( 图 12-9) 确 定 硬 件 是 否 已 经 对 指定 的 地 址 开始 监 
了 听 。 如 果 是 ， 则 增加 匹配 的 ethez_multi 结 构 中 的 引用 计数 (enm_refcount)， 并 且 
ether adqdqmulti 退 回 0。 

3. 更 新 ether multi 表 
419-441 如 果 这 是 一 个 新 的 地 址 范围 ， 则 分 配 并 初始 化 一 个 新 的 ether_multi 结 构 ， 把 
它 链 到 接口 arpcom 结 构 ( 图 12-8) 中 的 ac_multiaddrs 表 上 。 如 果 ether_addmulti 返 回 
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ENETRESET, MHA CEREALE Y. AADEGULMS CFTE UE 28 o 


12-34 显 示 在 LANCE 以 太 网 接口 加 入 所 有 主机 组 后 ，ip_moptions、 


ether _ multi 结 


arpcom() 


构 之 间 的 关系 。 


ifnet: 


in multi 


le softc[0]: ether multi() in moptions/(4 


01:00:5e:00:00:01 multicast ifp 
01:00:5e:00:00:01 aperto 





enm ac i hM 
le softc() = : 
in ifaddr() in multi() 
224.0.0.41 
— inm ifp | RS 
— inm ia | ia 


| inm refcount | | inm refcount | 
| inm timer | | inm timer | 
ia multiaddrs, | inm next 一 | inm next 一 


图 12-34 多 播 数 据 结构 的 整体 图 


12.12 离开 一 个 IP 多 播 组 


通常 情况 下 ， 离 开 一 个 多 播 组 的 步骤 是 加 入 一 个 多 播 组 的 步骤 的 反 序 。 更 新 
结构 中 的 成 员 表 、 了 接口 的 in_multi 表 和 设备 的 ether_multi 表 。 首 先 ， 
我 们 回 到 ip _setmoptions 中 的 IP DROP MEMBERSHIP 情 况 语句 ， 如 图 12-35 所 示 。 


ip moptions 


804 case IP DROP. MEMBERSHIP: 

805 /这 

806 * Drop a multicast group membership. 

807 * Group must be a valid IP multicast address. 

808 "y 

809 if (m == NULL || m-»m len !- sizeof(struct ip mreq)) { 
810 error - EINVAL; 

811 break; 

812 ) 

813 mreq - mtod(m, struct ip mreq *); 

814 if (!IN MULTICAST (ntohl (mreq-»imr. multiaddr.s, addr))) ( 
815 error - EINVAL; 

816 break; 

817 ) 

818 ey 

819 * If an interface address was specified, get a pointer 
820 * to its ifnet structure. 

821 ad i 

822 if (mreq-»imr interface.s addr == INADDR ANY) 

823 ifp = NULL; 

824 else ( 

825 INADDR, TO IFP(mreq-»imr interface, ifp); 


图 12-35 ip setmoptionsiKZk: 离开 一 个 多 播 组 


ip_output.c 
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826 if (ifp == NULL) ( 
827 error = EADDRNOTAVAIL; 
828 break; 
829 } 
830 } 
831 [* 
832 * Find the membership in the membership array. 
833 =f 
834 for (i = 0; i < imo->imo_num_memberships; ++i) { 
835 if ((ifp ss NULL ]! 
836 imo-»imo membership[i]-»inm ifp == ifp) && 
837 imo-»imo, membership[i]-»inm addr.s  addr == 
838 mreq-»imr multiaddr.s addr) 
839 break; 
840 ) 
841 if (i == imo-»imo num memberships) ( 
842 error - EADDRNOTAVAIL; 
843 break; 
844 ) 
845 p* 
846 * Give up the multicast address record to which the 
847 * membership points. 
848 us i 
849 in delmulti (imo-»imo, membership[i]); 
850 s 
851 * Remove the gap in the membership array. 
852 ad 
853 for (++i; i < imo->imo_num_memberships; ++i) 
854 imo->imo_membership[i - 1] = imo->imo_membership[i]; 
855 --imo->imo_num_memberships; 
856 break; 
ip output.c 
图 12-35 (£X) 
1. 验证 


804-830 存储 器 缓存 中 必然 包含 一 个 jp mreq 结 构 ， 其 中 的 ijmr _multiaddr 必 须 是 一 个 
多 播 组 ， 而 且 必 须 有 一 个 接口 与 单 播 地 址 ijmr_interface 相 关 。 如 果 这 些 条 件 不 满足 ， 则 
发 布 EINVAL 和 EADDRNOTAVAIL 错 误 信 息 ， 继 续 到 该 switch 语 句 的 最 后 进行 处 理 。 
2. 删除 成 员 引 用 

831-856 ”for 循环 用 请 求 的 { 接 口 ， 组 } 对 在 组 成 员 表 中 寻找 一 个 in_multi 结 构 。 如 果 没 
有 找到 ， 则 发 布 EADDRNOTRAVRAIL 错 误 信 息 。 如 果 找 到 了 ， 则 in_dqelmulLti 更 新 in_multi 
表 ， 并 且 第 二 个 for 循 环 把 成 员 数 组 中 不 用 的 条 目 删 去 ， 把 后 面 的 条 目 同 前 移动 。 数 组 的 大 
小 也 被 相应 更 新 。 


12.12.1 in _ delmulti 函 数 


因为 可 能 会 有 多 个 进程 接收 多 播 数据 报 ， 所 以 调用 in_delmulti( 图 12-36) 的 结果 是 ， 
当 对 in_multi 结 构 设 有 引用 时 ， 只 离开 指定 的 多 播 组 。 

更 新 in multi 结构 
534-567 in_delmulti 一 开始 就 减少 in_multi 结 构 的 引用 计数 ， 如 果 该 计数 非 堆 ， 则 
返回 。 如 果 该 计数 减 为 0， 则 表明 在 指定 的 { 接 口 ， 组 } 对 上 ， 没 有 其 他 进程 等 待 多 播 数据 报 。 
调用 igmp_leavegzoup， 但 该 函数 不 做 任何 事情 ， 我 们 将 在 13.8 节 中 看 到 。 

for 循 环 遇 历 in_multi 结 构 的 链表 ， 找 到 匹配 的 结构 。 
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. in.c 
534 int 
535 in delmulti(inm) 
536 struct in multi *inm; 
537 ( 
538 struct in multi **p; 
539 struct ifreq ifr; 
540 int S = Ssplnet(); 
541 if (--inm-»inm refcount -- 0) ( 
542 /* 
543 * No remaining claims to this record; let IGMP know that 
544 * we are leaving the multicast group. 
545 * y 
546 igmp leavegroup(inm); 
547 Fr" 
548 * Unlink from list. 
549 *j4 
550 for (p = &inm-»inm ia-»ia multiaddrs; 
55] *p !s inm; 
552 p = &(*p)->inm_next) 
553 continue; 
554 *p = (*p)-»inm next; 
555 PT 
556 * Notify the network driver to update its multicast reception 
557 * filter. 
558 id. 
559 ((struct sockaddr in *) &(ifr.ifr addr))-»sin family - AF INET; 
560 ((struct sockaddr in f} &(ifr.ifr addr))-»sin addr = 
561 inm-»inm addr; 
562 (*inm-»inm ifp-»-if ioctl) (inm-»inm ifp, SIOCDELMULTI, 
563 (caddr t) & ifr); 
564 free(inm, M IPMADDR); 
565 
566 Splx(s); 
567 ) . 
in.c 


图 12-36 in delmultir&K7k 


for 循 环 体 只 包含 一 个 continue 语 名。 但 所 有 工作 都 由 循环 上 面 的 表达 式 做 了 ， 


并 不 需要 continue 语 句 ， 只 是 因为 它 比 只 有 一 个 分 号 更 清楚 一 些 。 


图 12-9 中 的 宏 ETHER LOOKUP _ MULTI 不 用 continue 语 向 ， 仅 有 一 个 分 号 几乎 


是 不 可 检测 的 。 

循环 结束 后 ， 把 匹配 的 in_multi 结 构 从 链表 上 断 开 ，in_delmulti 向 接口 发 布 
SIOCDELMULTI 请 求 ， 以 便 更 新 所 有 设备 专用 的 数据 结构 。 对 以 太 网 接口 来 说 ， 这 意味 着 更 
新 ether multi 表 。 最 后 释放 in_multi 结 构 。 


LANCE 驱 动 程序 的 SIOCDELMULTI 情 况 语句 包括 在 图 12-31 中 ， 这 里 我 们 也 讨 


论 了 SIOCADDRMULTI 情 况 ， 


12.12.2 ether delmulti ğı 


当 IP 释 放 与 某 个 以 太 网 设备 相关 的 in_ multi 结构 时 ， 该 设备 也 可 能 释放 匹配 的 
ether multi 结构 。 我 们 说 “可 能 ”是 因为 JP 忽略 其 他 监听 IP 多 播 的 软件 。 当 ether_ 
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multi 结 构 的 引用 计数 变 成 0 时 ， 就 释放 该 结构 。 图 12-37 是 ether delmultitfAX., 


445 int 


446 ether delmulti(ifr, ac) 
447 struct Alfreq “ifr; 
448 struct arpcom *ac; 


449 ( 
450 
451 
452 
453 
454 
455 


456 


457 
458 
459 
460 


461 
462 
463 
464 
465 
466 
467 
468 
469 
470 
471 
472 
473 
474 
475 


476 
477 
478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 


struct ether_multi *enm; 
struct ether multi **p; 
struct sockaddr. in *sin; 
u_char addrlo[6]; 
u_char addrhi([6]; 

int S = Splimp(); 


switch (ifr-»ifr addr.sa family) ( 


case AF, UNSPEC: 
bcopy(ifr-»ifr addr.sa data, addrlo, 6); 
bcopy(addrlo, addrhi, 6); 
break; 


case AF INET: 
sin - (struct sockaddr in *) &(ifr-»ifr addr); 
if (sin-»sin addr.s addr == INADDR ANY) { 
/* 
* An IP address of INADDR, ANY means stop listening 
* to the range of Ethernet multicast addresses used 
* for IP. 
si i 
bcopy(ether ipmulticast min, addrlo, 6); 
bcopy(ether ipmulticast max, addrhi, 6); 
} else ( 
ETHER, MAP IP MULTICAST(&sin-»sin addr, addrlo); 
bcopy(addrlo, addrhi, 6); 
} 
break; 


default: 

splx (s): 

return (EAFNOSUPPORT); 
} 


/* 
* Look up the address in our list. 
*J 
ETHER LOOKUP MULTI(addrlo, addrhi, ac, enm); 
if (enm -- NULL) ( 
splx(s); 
return (ENXIO); 
) 


if (--enm-»enm refcount !- 0) ( 
/* 
* Still some claims to this record. 
*J 
splix(s); 


return (0); 
) 
/* 
* No remaining claims to this record; unlink and free it. 
o i 


12-37 ether delmulti fÁ% 


if ethersubr.c 
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498 for (p = &enm-»enm ac-»ac multiaddrs; 
499 *p l= enm; ; 
500 p = &(*p)-»enm next) 
501 continue; 
502 *p = (*p)->enm_next; 
503 free(enm, M IFMADDR); 
504 ac-»ac multicnt--; 
505 splx(s); 
506 /< 
507 * Return ENETRESET to inform the driver that the list has changed 
508 * and its reception filter should be adjusted accordingly. 
509 wf 
510 return (ENETRESET); 
5143 jJ 
if ethersubr.c 
图 12-37 ( 续 ) 


445-479 ether delmultitifüZüfether addrmulti 函 数 采 用 的 同一 方法 初始 化 
addrlo 和 addrhi 数 组 。 

1. 寻找 ether multi 结 构 
480-494 ETHER LOOKUP _ MULTI 寻找 匹配 的 ether_multi 结 构 。 如 果 设 有 找到 ， 则 返 
回 ENXIO。 如 果 找 到 匹配 的 结构 ， 则 把 引用 计数 减 去 1。 如 果 此 时 引用 计数 非 零 ， 
ether_dqelmulti 立 即 返回 。 在 这 种 情况 下 ， 可 能 会 由 于 其 他 协议 也 要 接收 相同 的 多 播 分 组 
而 释放 该 结构 。 

2. 删除 ether multi 结 构 
495-511 for 循 环 搜索 ethez_multi 表 ， 寻 找 匹 配 的 地 址 范围 ， 并 从 链表 中 断 开 匹配 的 结 
构 ， 将 它 释 放 掉 。 最 后 ， 更 新 链表 的 长 度 ， 返 回 ENETRESET， 使 设备 驱动 程序 可 以 更 新 它 的 
RE PF HEIC SE UE a8 e 
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取得 当前 的 选项 设置 比 设置 它们 要 容易 。ip_getmoptions 完 成 所 有 的 工作 ， 如 图 12-38 
所 示 。 

复制 选项 数据 和 返回 
876-914 ip getmoptions 的 三 个 参数 是 : optname， 要 取得 的 选项 :， imo, 
ip_moptions 结 构 ，mp， 一 个 指向 mbuf 的 指针 。m_get 分 配 一 个 mbuf 存 放 该 选项 数据 。 这 
三 个 选项 的 指针 (分 别 是 addr、tt1l 和 1oop) 被 初始 化 为 指向 mbuf 的 数据 域 ， 而 mbuf 的 长 度 
被 设 成 选项 数据 的 长 度 。 

对 IP_MULTICAST_IF， 返 回 IFP_TO_IA 发 现 的 单 播 地 址 ， 或 者 如 果 没 有 选择 明确 的 多 
播 接 口 ， 则 返回 INADDR_ANY。 

对 IP MULTICAST TTL， 返 回 ijmo multicast ttl, 或 者 如 果 没 有 选择 明确 的 TTL， 
则 返回 1(IP DEFAULT MULTICAST TTL)。 

对 IP MULTICAST LOOP, 返回 ijmo multicast loop, 或 者 如 果 没 有 选择 明确 的 多 
播 环 回 策略 ， 则 返回 1(IP_ DEFAULT MULTICAST LOOP), 

最 后 ， 如 来 不 识别 该 选项 ， 则 返回 EOPNOTSUPP。 
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XE Aut ip output.c 

877 ip getmoptions(optname, imo, mp) 

878 int optname; 

879 struct ip moptions *imo; 

880 struct mbuf **mp; 

881 ( 

882 ü char *ttl; 

883 u char *loop; 

884 struct in_addr *addr; 

885 struct in ifaddr *ia; 

886 *mp = m get(M WAIT, MT. SOOPTS) ; 

887 switch (optname) { 

888 case IP MULTICAST IF: 

889 addr = mtod(*mp, struct in addr *); 

890 (*mp)-»m len = sizeof(struct in_addr); 

891 if (imo == NULL || imo-»imo multicast ifp == NULL) 

892 addr-»s addr = INADDR, ANY; 

893 else ( 

894 IFP TO IA(imo-»-imo multicast ifp, ia); 

895 addr-»s, addr = (ia == NULL) ? INADDR ANY 

896 : IA SIN(ia)-»sin addr.s. addr; 

897 ) 

898 return (0); 

899 case IP MULTICAST TTL: 

900 ttl = mtod(*mp, u_char *); 

901 (*mp)-»m len - 1; 

902 *tt] - (imo -- NULL) ? IP DEFAULT MULTICAST TTL 

903 : imo-»imo multicast ttl; 

904 return (0); 

905 case IP MULTICAST LOOP: 

906 loop = mtod(*mp, u_char *); 

907 (*mp)-»m len - 1; 

908 *loop - (imo -- NULL) ? IP DEFAULT MULTICAST LOOP 

909 : imo-»imo multicast loop; 

910 return (0); 

911 default: 

912 return (EOPNOTSUPP); 

913 ) 

914 ) , 
ip output.c 


图 12-38 ip getmoptions pÁ% 


12.14 多 播 输入 处 理 : ipintreA Zi 


到 目前 为 止 ， 我 们 已 经 讨论 了 多 播 选 路 ， 组 成 员 关 系 ， 以 及 多 种 与 IP 和 以 太 网 多 播 有 关 
的 数据 结构 ， 现 在 转 入 讨论 对 多 播 数 据 报 的 处 理 。 

在 图 4-13 中 ， 我们 看 到 ether_input 检 测 到 达 的 以 太 网 多 播 分 组 ， 在 把 一 个 IP 分 组 放 到 
IP 输 入 队列 之 前 (ijpintrq)， 把 mbuf 首 部 的 M_MCAST 标 志 位 置 位 。ipintr 函 数 按 顺 序 处 理 
每 个 分 组 。 我 们 在 ijpintr 中 省 略 的 多 播 处 理 程序 如 图 12-39 所 示 。 

该 段 代 码 来 自 ipintr 程 序 ， 用 来 确定 分 组 是 寻 址 到 本 地 网 络 还 是 应 该 被 转发 。 此 时 ,已 
经 检测 到 分 组 中 的 错误 ， 并 且 已 经 处 理 完 分 组 的 所 有 选项 。ip 指 向 分 组 内 的 IP 首 部 。 
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Ar RC SUELE HR. SUPE AH 
214-245 如 果 目 的 地 址 不 是 一 个 IP 多 播 组 ， 则 跳 过 整个 这 部 分 代码 。 如 果 地 址 是 一 个 多 播 
组 ， 并 且 系 统 被 配置 成 IP 多 播 路 由 絮 (ip_mrouter)， 就 把 ip_id 转 换 成 网 络 字 市 序 
(ip_mforward 希 望 的 格式 )， 并 把 分 组 传 给 ijp_mforward。 如 果 出 现 错误 或 者 分 组 是 通过 
一 个 多 播 隧 道 (multicast tunnel) $8]35 8, Jlllip mforwardjRII—^-dEZÍR. 4:HtE 3f. H 
ips cantforward 的 值 加 1。 

我 们 在 第 14 章 中 描述 了 多 播 隧道 。 它 们 在 两 个 被 标准 IP 路 由 器 隔 开 的 多 播 路 由 器 

之 间 传 递 分 组 。 通 过 隧道 到 达 的 分 组 必须 由 ip mforward 处 理 ， 而 不 是 由 ijpintr 

处 理 。 

如 果 ip_mforward 返 回 9， 则 把 ip_id 转 换 回 主机 字 市 序 ， 由 ipintr 继 续 处 理 分 组 。 

如 果 ip 指 向 一 个 IGMP 分 组 ， 则 接受 该 分 组 ， 并 在 ours 处 (图 10-11 的 ipintz) 继 续 执行 。 
不 管 到 达 接 口 的 每 个 目的 组 或 组 成 员 是 什么 ， 多 播 路 由 絮 必 须 接受 所 有 IGMP 分 组 。IGMP 分 
组 中 有 组 成 员 变 化 的 信息 。 
246-257 根据 系统 是 否 被 配置 成 多 播 路 由 器 来 确定 是 否 执行 图 12-39 中 的 其 余 程序 。 
IN_LOOKUP_MULTI 搜 索 接口 加 入 的 多 播 组 表 。 如 果 没 有 找到 匹配 ， 则 丢弃 该 分 组 。 当 硬件 
过 滤器 接受 不 需要 的 分 组 时 ， 或 者 当 与 接口 相关 的 多 播 组 与 分 组 中 的 目的 多 播 地 址 映射 到 同 
一 个 以 太 网 地 址 时 ， 才 出 现 这 种 情况 。 

如 果 接 受 了 该 分 组 ， 就 继续 执行 ijpintr( 图 10-11) 的 ours 标 号 处 的 语句 。 


- - ip_input.c 
214 if (IN MULTICAST (ntohl (ip-»ip dst.s addr))) ( 
215 struct in multi *inm; 
216 extern struct socket *ip mrouter; 
217 if (ip mrouter) ( 
218 y% 
219 * If we are acting as a multicast router, all 
220 * incoming multicast packets are passed to the 
221 * kernel-level multicast forwarding function. 
222 * The packet is returned (relatively) intact; if 
223 * ip mforward() returns a non-zero value, the packet 
224 * must be discarded, else it may be accepted below. 
225 * 
226 * (The IP ident field is put in the same byte order 
227 * as expected when ip mforward() is called from 
228 + ip outpatt).)] 
229 "y 
230 ip-»ip id = htons(ip-»ip id); 
231 if (ip mforward(m, m-»m pkthdr.rcvif) !- 0) ( 
232 ipstat.ips  cantforward--*; 
233 m freem(m); 
234 goto next; 
235 ) 
236 ip-»ip id = ntohs(ip-»ip id); 
237 £* 
238 * The process-level routing demon needs to receive 
239 * all multicast IGMP packets, whether or not this 
240 * host belongs to their destination groups. 
241 ey 


图 12-39 ipintrtR E: 多 播 输入 处 理 
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if (ip-»ip.p -- IPPROTO IGMP) 
goto ours; 
ipstat.ips forward-«-*; 
) 
/* 
* See if we belong to the destination multicast group on the 
* arrival interface. 
*J 
IN LOOKUP MULTI(ip-»ip dst, m-»m pkthdr.rcvif, inm); 
if (inm == NULL) ( 
ipstat.ips cantforward-«-; 
m freem(m); 
goto next; 
) 


goto ours; 


ip input.c 
12-39 (fx) 


12.15 多 播 输出 处 理 : ip output 函数 


当 我 们 在 第 8 章 讨 论 ijp_output 时 ， 推迟 了 对 ip_output 的 mp 参数 和 多 播 处 理 程序 的 讨 
论 。 在 ip_output 中 ， 如 果 mp 指 同一 个 ijp_moptions 结 构 ， 它 就 履 盖 多 播 输 出 处 理 的 默认 
值 。ip_output 中 省 略 的 程序 在 图 12-40 和 图 12-41 中 显示 。ip 指 向 输出 的 分 组 ，m 指 向 包含 
该 分 组 的 mbuf，ifp 指 向 路 由 表 为 目的 多 播 组 选择 的 接口 。 
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(IN. MULTICAST (ntohl(ip-»ip dst.s addr))) ( 


ip output.c 


struct in multi *inm; 
extern struct ifnet loif; 


m-»m flags |= M MCAST; 


/* 
* IP destination address is multicast. Make sure "Ast" 
* still points to the address in "ro". (It may have been 
* changed to point to a gateway address, above.) 
mE 
dst = (struct sockaddr in *) &ro-»ro dst; 
/* 
* See if the caller provided any multicast options 
2y 


if (imo t= NULL) ( 
ip-»ip ttl = imo-»imo multicast ttl; 
if (imo-»imo multicast ifp !- NULL) 
ifp = imo-»imo multicast ifp; 
) else 
ip-»ip ttl - IP DEFAULT MULTICAST TTL; 
/* 
* Confirm that the outgoing interface supports multicast. 
"y 
if ((ifp-»if flags & IFF MULTICAST) == 0) { 
ipstat.ips_noroute++; 
error = ENETUNREACH; 
goto bad; 


图 12-40 ip output ğe: 默认 和 产地 址 
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157 * If source address not specified yet, use address 

158 * of outgoing interface. 

159 AA i 

160 if (ip-»ip src.s addr == INADDR ANY) ( 

161 Struct in ifaddr tia; 

162 for (ia = in lifaddr; ia; ia = l1a-»1a next) 

163 If (id-218.1fD == lp) 4 

164 ip-»ip src = IA SIN(ia)-»sin addr; 

165 break; 

166 ) 

167 ) " 
ip output.c 

图 12-40 (2x) 
- - ip_output.c 

168 IN_LOOKUP_MULTI (ip->ip_dst, ifp, inm); 

169 if (inm != NULL && 

170 (imo == NULL || imo-»imo multicast loop)) { 

171 Fe 

142 * If we belong to the destination multicast group 

173 * on the outgoing interface, and the caller did not 

174 * forbid loopback, loop back a copy. 

175 * y 

176 ip mloopback(ifp, m, dst); 

177 ) eise ( 

178 p* 

179 * If we are acting as a multicast router, perform 

180 * multicast forwarding as if the packet had just 

181 * arrived on the interface to which we are about 

182 * to send. The multicast forwarding function 

183 * recursively calls this function, using the 

184 * IP FORWARDING flag to prevent infinite recursion. 

185 * 

186 * Multicasts that are looped back by ip mloopback(), 

187 * above, will be forwarded by the ip .input() routine, 

188 * if necessary. 

189 wJ 

190 extern struct socket *ip_mrouter; 

191 if (ip mrouter && (flags & IP. FORWARDING) == 0) { 

192 lf (ipo omnforward(m, ifp) t= 0) ( 

193 m freem(ím); 

194 goto done; 

195 ) 

196 ) 

197 ) 

198 y* 

199 * Multicasts with a time-to-live of zero may be looped- 

200 * back, above, but must not be transmitted on a network. 

201 * Also, multicasts addressed to the loopback interface 

202 * are not sent -- the above call to ip mloopback() will 

203 * loop back a copy if this host actually belongs to the 

204 * destination group on the loopback interface. 

205 w 

206 lf {jp-sip tti == 0 [| LI s &101f) 1 

207 m freem(m); 

208 goto done; 

209 ) 

210 goto sendit; 

2141 } ; 
ip output.c 


图 12-41 ip output Kğ: 环 回 、 转 发 和 发 送 
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1. 建立 默认 值 
129-155 只 有 分 组 是 到 一 个 多 播 组 时 ， 才 执行 图 12-40 中 的 程序 。 此 时 ，ip_output 把 
mbuf 中 的 M_MCAST 置 位 ， 并 把 dst 重 设 成 最 终 目 的 地 址 ， 因 为 jp_output 可 能 曾 把 它 设 成 
下 一 跳 路 由 如 ( 图 8-24)。 

如 果 传 递 了 一 个 jp_moptions 结 构 ， 则 相应 地 改变 ip_tt1l 和 ifp。 否 则 ， 把 ip_tt1 
设 成 1(IP_DEFAULT_MULTICAST_TTL)， 避 免 多 播 分 组 到 达 某 个 远程 网 络 。 查 询 路 由 表 或 
ip_moptions 结 构 所 得 到 的 接口 必须 支持 多 播 。 如 果 不 支 持 ， 则 ip_output 丢 弃 该 分 组 ， 
并 返回 ENETUNREACH，。 

2. 选择 源 地 址 
156-167 如 条 没 有 指定 产地 址 ， 则 由 Ecoz 循 环 找到 与 输出 接口 相关 的 单 播 地 址 ， 并 填 人 了 PP 
首部 的 ijp_src。 

与 单 播 分 组 不 同 ， 如 果 系 统 被 配置 成 一 个 多 播 路 由 如 ， 则 必须 在 一 个 以 上 的 接口 上 发 送 
输出 的 多 播 分 组 。 即 使 系统 不 是 一 个 多 播 路 由 器 ， 输 出 的 接口 也 可 能 是 目的 多 播 组 的 一 个 成 
员 ， 也 会 需要 接收 该 分 组 。 节 后 ， 我 们 需要 考虑 一 下 多 播 环 回 策略 和 环 回 接口 本 身 。 把 所 有 
这 些 都 考虑 进去 ， 共 有 三 个 问题 : 

。 是否 要 在 输出 的 接口 上 接收 该 分 组 ? 

« 是否 同 其 他 接口 转发 该 分 组 ? 

。 是 否 在 出 去 的 接口 发 送 该 分 组 ? 

图 12-41 显 示 了 ip_output 中 解决 这 三 个 问题 的 程序 。 

3. 是 否 环 回 
168-176 如 果 IN LOOKUP MULTI 确 定 输出 的 接口 是 目的 多 播 组 的 成 员 ， 而 且 
imo multicast loop 非 零 ， 则 分 组 被 jp mloopback 放 到 输出 接口 上 排队 ， 等 待 
输入 。 在 这 种 情况 下 ， 不 考虑 转发 原始 分 组 ， 因 为 在 输入 过 程 中 如 果 需 要 ,分 组 的 复制 
会 被 转发 的 。 

4. 是 否 转 发 
178-197 如 果 分 组 不 是 环 回 的 ， 但 系统 被 配置 成 一 个 多 播 路 由 器 ， 并 且 分 组 符合 转发 的 条 
件 ， 则 ip_mforwazd 回 其 他 多 播 接口 分 发 该 分 组 的 备份 。 如 果 ip_mforward 没 有 返回 0， 
则 ip_output 和 技 弃 该 分 组 ， 不 发 送 它 。 这 表明 分 组 中 有 错误 。 

为 了 避免 ip _mforward 和 ip _ output 之 间 的 无 限 循环 ，ip mforward 在 调用 
ip_output 之 前 ， 总 征 把 IP_FORNRARDING 打 开 。 在 本 系统 上 产生 的 数据 报 是 符合 转发 条 件 
的 ， 因 为 运输 层 不 打开 IF FORWARDING, 

S. ERARIS 
198-209 TTL 是 0 的 分 组 可 能 被 环 回 ， 但 从 不 转发 它们 (ijp_mforward 丢 弃 它 们 )， 也 从 不 
被 发 送 。 如 果 TITL 是 0 或 者 如 果 输 出 接口 是 环 回 接口 ， 则 ip_output 丢 弃 该 分 组 ， 因 为 TTL 
超时 ， 或 者 分 组 已 经 被 jp_mloopback 环 回 了 。 

6. 发 送 分 组 
210-211 到 这 个 时 候 ， 分 组 应 该 已 经 从 物理 上 在 输出 接口 上 被 发 送 了 。sendit 
(ip_output， 图 8-25) 处 的 程序 在 把 分 组 传 给 接口 的 if_output 国 数 之 前 可 能 已 经 把 它 分 片 
了 。 我 们 将 在 21.10 市 中 看 到 ， 以 太 网 输出 函数 ether_output 调 用 arpresolve， 
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arpresolve 又 调用 ETHER MAP MULTICAST, HjETHER MAP MULTICRAST 根 据 IP 多 播 目 
的 地 址 构造 一 个 以 太 网 多 播 目的 地 址 。 


ip mloopbacktZi 


ip mloopback 依 靠 L1ooutput( 图 $-27) 完 成 它 的 工作 。ip_mloopback 传 递 的 
looutput 不 是 指向 环 回 接口 的 指针 ， 而 是 指向 输出 多 播 接口 的 指针 。 图 12-42 显 示 了 
ip mloopbackIAZi, 


: ip output.c 

935 static void 

936 ip mloopback(ifp, m, dst) 

937 struct ifnet *ifp; 

938 struct mburf *m; 

939 struct sockaddr. in *dst; 

940 ( | 

941 Struer ip *ipi 

942 struct mbuf *copym; 

943 copym - m copy(m, 0, M COPYALD); 

944 if (copym t= NULL) { 

945 £^ 

946 * We don't bother to fragment if the IP length is greater 

947 * than the interface's MTU. Can this possibly matter? 

948 * y 

949 ip - mtod(copym, struct ip *); 

950 ip-»ip len = htons((u short) ip-»ip len); 

951 ip-»ip.off = htons((u short) ip-»i1p off); 

952 ip-»ip sum = 0; 

953 ip-»ip . sum = in cksum(copym, ip-»ip hl << 2); 

954 (void) looutput(ifp, copym, (struct sockaddr *) dst, NULL); 

955 ) 

956 ) . 

ip output.c 
图 12-42 ip mloopback 国 数 
复制 并 把 分 组 放 到 队列 中 


929-956 仅仅 复制 分 组 是 不 够 的 ， 必 须 看 起 来 分 组 已 经 被 输出 接口 接收 了 ， 所 以 
ip_mloopback 把 ip_1en 和 :ip_off 转 换 成 网 络 字 节 序 ， 并 计算 分 组 的 检验 和 。1ooutput 
把 分 组 放 到 IP 输 入 队列 。 


12.16 性 能 的 考虑 


Net/3 的 多 播 实现 有 几 个 潜在 的 性 能 瓶颈 。 因 为 许多 以 太 网 网 卡 并 不 能 完美 地 实现 对 多 
播 地 址 的 过 滤 ， 所 以 操作 系统 必须 能 够 丢弃 那些 通过 硬件 过 滤器 的 分 组 。 在 最 坏 的 情况 下 ， 
以 太 网 网 卡 可 能 会 接收 所 有 分 组 ， 而 其 中 大 部 分 可 能 会 被 Lpintr 发 现 不 具有 合法 的 IP 多 播 
组 地 址 。 

IP 用 简单 的 线性 表 和 线性 搜索 过 滤 到 达 的 IP 数 据 报 。 如 果 表 增长 到 一 定 长 度 后 ， 杀 些 高 
速 缓存 技术 ， 如 移动 最 近 接 收 地 址 到 表 的 最 前 面 ， 将 有 助 于 提高 性 能 。 


12.17 小 结 
本 章 我 们 讨论 了 一 个 主机 如 何 处 理 IP 多 播 数 据 报 。 我 们 看 到 ， 在 IP 的 D 类 地 址 和 以 太 网 多 
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播 地 址 的 格式 及 它们 之 间 的 映射 关系 。 

我 们 讨论 了 in-multi 和 ether_multi 结 构 ， 每 个 IP 多 播 接口 都 维护 一 个 它 自己 的 组 成 
员 表 ， 而 每 个 以 太 网 接口 都 维护 一 个 以 太 网 多 播 地 址 。 

在 输入 处 理 中 ， 只 有 到 达 接 口 是 目 的 多 播 组 的 成 员 时 ， 该 IP 多 播 才 被 接受 下 来 。 尽 管 如 
果 系 统 被 配置 成 多 播 路 由 器 ， 它 们 也 可 能 被 继续 转发 到 其 他 接口 。 

被 配置 成 多 播 路 由 器 的 系统 必须 接受 所 有 接口 上 的 所 有 多 播 分 组 。 只 要 为 LNADDR_ANY 
地 址 发 布 SIOCRDDMULTI 命 令 ， 就 可 以 迅速 做 到 这 一 点 。 

ip_moptions 结 构 是 多 播 输出 处 理 的 基础 。 它 控制 对 输出 接口 的 选择 、 多 播 数据 报 TTL 
辖 域 值 的 设置 以 及 环 回 策略 。 它 也 控制 对 in_multi 结 构 的 引用 计数 ， 从 而 决定 接口 加 入 或 
离开 某 个 IP 多 播 组 的 时 机 。 

我 们 也 讨论 了 多 播 TTL 值 实现 的 两 个 概念 : 分 组 生存 期 和 分 组 辖 域 。 


习题 
12.1 发 送 IP 广 播 分 组 到 255.255.255.255 和 发 送 IP 多 播 给 所 有 主机 组 224.0.0.1 的 区 别 是 什 


A? 

12.2 为 什么 用 多 播 代 码 中 的 卫 单 播 地 址 标识 接口 ? 如 果 接 口 能 发 送 和 接收 多 播 地 址 ， 但 
没有 一 个 单 播 IP 地 址 ， 必 须 做 什么 改动 ? 

12.3 在 12.3 布 中 ， 我 们 讲 到 32 个 IP 组 地 址 被 映射 到 同一 个 以 太 网 地 址 上 。 因 为 32 bit 地 址 
中 的 9 bit 不 在 映射 中 。 为 什么 我 们 不 说 512(29) 个 IP 组 被 映射 到 一 个 以 太 网 地 址 上 ? 

12.4 你 认为 为 什么 把 IP_MAX_MEMBERSHIPS 设 成 20? 能 被 设 得 更 大 一 些 吗 ? 提示 : 79 
Eip _moptions 结 构 (图 12-13) 的 大 小 。 

12.5 当 一 个 多 播 数 据 报 被 IP 环 回 并 且 被 发 送 它 的 硬件 接口 接收 ( 即 一 个 非 单 工 接口 ) 时 ， 
会 发 生 什 么 情况 ? 

12.6 画 一 个 有 一 个 多 接口 主机 的 网 络 图 ， 即 使 该 主机 没有 被 配置 成 多 播 路 由 器 ， 其 他 接 
口 也 能 接收 到 在 某 个 接口 上 发 送 的 多 播 分 组 。 

12.7 通过 SLIP 和 环 回 接口 而 不 是 以 太 网 接口 跟踪 成 员 增 加 请 求 。 

12.8 ”进程 如 何 请 求 内 核 加 入 多 于 IP MAX MEMBERSHIPS 个 组 ? | 

12.9 计算 环 回 分 组 的 检验 和 是 多 余 的 。 设 计 一 个 方法 ， 如 免 计 算 环 回 分 组 的 检验 和 。 

12.10. 接口 在 不 重用 以 太 网 地 址 的 情况 下 ， 最 多 可 加 入 多 少 个 IP 多 播 组 中 ? 

12.11 细心 的 读者 可 能 已 经 注意 到 in delmulti 在 发 布 SIOCDELMULTI 请 求 时 ， 假 定 
接口 已 经 定义 了 ioct1 函 数 。 为 什么 这 样 不 会 出 错 ? 

12.12 如 果 请 求 一 个 未 识别 的 选项 ， 则 ip_getmoptions 中 分 配 的 mbuf 将 会 发 生 什么 
情况 ? 

12.13 为 什么 把 组 成 员 机 制 与 用 于 接收 单 播 和 广播 数据 报 的 绑 定 机 制 分 离开 来 ? 
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IGMP 在 本 地 网 络 上 的 主机 和 路 由 器 之 间 传 达 组 成 员 信 息 。 路 由 左 定 时 站“ 所 有 主机 组 
多 播 IGMP 查 询 。 主 机 多 播 IGMP 报 告 报 文 以 啊 应 查询 。IGMP 规 范 在 RFC 1112 中 。 卷 1 的 第 13 
章 讨论 了 IGMP 的 规范 ， 并 给 出 了 一 些 例 子 。 

从 体系 结构 的 观点 来 看 ，IGMP 是 位 于 IP 上 面 的 运输 层 协 议 。 它 有 一 个 协议 号 (2)， 它 的 报 
文 是 由 IP 数 据 报 运载 的 (与 1CMP 一 样 )。 与 1CMP 一 样 ， 进 程 通常 不 直接 访问 IGMP， 但 进程 可 
以 通过 IGMP 插 口 发 送 或 接收 IGMP 报 文 。 这 个 特性 使 得 能 够 把 多 播 选 路 守护 程序 作为 用 户 级 

图 13-1 显 示 了 Net/3 中 IGMP 协 议 的 整体 结构 。 






ip_setmoptions 


=] 
Mapo 结构 
pe E | 


Miu i CN i | pus t 


lori 


图 13-1 IGMP 处 理 概 要 


IGMP 处 理 的 关键 是 一 组 在 图 13-1 中 心 显 示 的 in_multi 结 构 。 到 达 的 IGMP 查 询 使 
igmp_input 为 每 个 in_multi 结 构 初始 化 一 个 递 碱 定时 器 。 该 定时 器 由 igmp_fasttimo 
更 新 ， 当 每 个 定时 右 超 时 时 ，igmp fasttimo 调 用 igmp_sendreport。 

我 们 在 第 12 章 中 看 到 ， 当 创建 一 个 新 的 in_multi 结 构 时 ，ip_setmoptions 调 用 
igmp joingroup, igmp joingroup 调 用 igmp _sendreport 来 发 布 新 的 组 成 员 信 和 忠 ， 
使 组 的 定时 器 能 够 在 短 时 间 内 安排 第 二 次 通告 。igmp_sendreport 完 成 对 IGMP 报 文 的 格式 
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化 ， 并 把 它 传 给 ip_output。 
在 图 13-1 的 左边 和 右边 ， 我 们 看 到 一 个 原始 插口 可 以 直接 发 送 和 接收 IGMP 报 文 。 


13.2 代码 介绍 


图 13-2 中 列 出 了 实现 IGMP 协 议 的 4 个 文件 。 












IGMP 协 议定 义 
IGMP 实 现 定义 
netinet/in var.h IP 多 播 数 据 结 构 


图 13-2 本 章 讨论 的 文件 







netinet/igmp.h 





netinet/igmp var.h 





13.2.1 全 局 变量 


本 章 中 介绍 的 新 的 全 局 变量 显示 在 图 13-3 中 。 


igmp all hosts group u long 网 络 字 市 序 的 “所 有 主机 组 ”地 址 
igmp timer are running | int 如 果 所 有 IGMP 定 时 器 都 有 效 ， 则 为 真 ， 否则 为 假 
igmp stat struct igmpstat | IGMP 统 计 ( 图 13-4) 


图 13-3 本 章 介 绍 的 全 局 变量 





13.2.2 统计 量 


IGMP 统 计 信息 是 在 图 13-4 的 1gmpstat 变 量 中 维护 的 。 


igps rcv badqueries 作为 无 效 查询 接收 的 报 文 数 
igps rcv badreports 作为 无 效 报告 接收 的 报 文 数 
igps rcv badsum 接收 的 报 文 检 验 和 错误 数 

igps rcv ourreports 作为 逻辑 组 的 报告 接收 的 报 文 数 


igps rcv queries 作为 成 员 关 系 查 询 接收 的 报 文 数 
igps rcv reports 作为 成 员 关 系 报 告 接收 的 报 文 数 
igps rcv tooshort 字 节 数 太 少 的 报 文 数 

igps rcv total 接收 的 全 部 报 文 数 

igps snd reports 作为 成 员 关 系 报告 发 送 的 报 文 数 





图 13-4 IGMP 统 计 


图 13-5 是 在 vangogh.cs.berkeley.edu 上 执行 hetstat -p igmp 命 令 后 输出 的 统 
ifs B. 

在 图 13-5 中 ， 我 们 看 到 vangogh 是 连 到 一 个 使 用 IGMP 的 网 络 上 的 ， 但 是 vangogh 疫 有 
加 入 任何 多 播 组 ， 因 为 igps_snd_reports 是 0。 
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netstat -p igmp 输出 igmpstat 成 员 


18774 messages received igps rcv. total 
0 messages received with too few bytes igps rcv. tooshort 

0 messages received with bad checksum igps rcv badsum 
18774 membership queries received igps. rcv, queries 

0 membership queries received with invalid field(s) igps rcv. badqueries 
membership reports received igps rcv reports 
membership reports received with invalid field(s) igps rcv badreports 
membership reports received for groups to which we belong | igps rcv, ourreports 
membership reports sent igps. snd, reports 































oO OO OO 





图 13-5 IGMP 统 计 示 例 


13.2.3 SNMP 变 量 


IGMP 设 有 标准 的 SNMP MIB, fH [McCloghrie Farinacci 1994a] 描 述 了 一 个 IGMP 的 实验 
MIB, 


13.3 igmp 结 构 


IGMP 报 文 只 有 8 字 市 长 。 图 13-6 显 示 了 Net/3 使 用 的 ijgmp 结 构 。 





43 struct igmp { dup 
44 u_char igmp type; /* version & type of IGMP message  */ 
45 u char  igmp. code; /* unused, should be zero * y 
46 u short igmp cksum; /* IP-style checksum ud 
47 struct in_addr igmp_group; /* group address being reported "T 
48 ); /* (zero for queries) * f 
igmp.h 





13-6 igmp 结 构 


igmp_type 包 括 一 个 4 bit 的 版 本 码 和 一 个 4 bit 的 类 型 码 。 图 13-7 显 示 了 标准 值 。 


Ox11 (IGMP HOST MEMBERSHIP QUERY) 成 员 关 系 查 询 


0x11 (IGMP HOST MEMBERSHIP REPORT) | 成 员 关 系 报告 
0x13 DVMRP 报 文 (第 14 章 ) 





图 13-7 IGMP 报 文 类 型 
m ak 


en i E 


cks 
2 p 4 FH 


om oo 
e—— —— JP 数据 报 一 一 一 一 一 一 一 一 一 


图 13-8 IGMP 报 文 (省 略 igmp_) 
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43-44 Net/3 只 使 用 版 本 1 的 报 文 。 多 播 路 由 器 发 送 1 类 报 文 (IGMP HOST MEMBERSHIP_ 
QUERY) 同 本 地 网 络 上 所 有 主机 请 求 成 员 关系 报告 。 对 1 类 IGMP 报 文 的 啊 应 是 主机 的 一 个 2 类 
报 文 (IGMP_HOST MEMBERSHIP REPORT), 报告 它们 的 多 播 成 员 信 息 。3 类 报 文 在 路 由 帮 
之 间 传 输 多 播 选 路 信息 (第 14 章 )。 主 机 不 处 理 3 类 报 文 。 本 章 后 面部 分 只 讨论 1 类 和 2 类 报 文 。 
45-46 在 IGMP 版 本 1 中 没有 使 用 igmp_code。igmp _cksum 与 IP 类 似 ， 计 算 IGMP 报 文 的 
所 有 8 个 字 市 。 
47-48 对 查询 ，igmp_group 是 0。 对 回答 ， 它 包括 报告 的 多 播 组 。 

图 13-8 是 相对 于 了 P 数 据 报 的 IGMP 报 文 结构 。 


13.4 IGMP 的 protosw 的 结构 


图 13-9 是 IGMP 的 pzotosw 结 构 。 


pr type SOCK RAW IGMP 提 供 原 始 分 组 服务 
pr domain &inetdomain IGMP 是 Internet 域 的 一 部 分 
pr protocol IPROTO IGMP(2) 显示 在 IP 首 部 的 ijp_p 字 段 
pr flags PR _ATOMIC|PR_ADDR | 插口 层 标 志 ， 协 议 处 理 不 使 用 
pr_input igmp input 从 IP 层 接收 报 文 
pr_output rip output 向 IP 层 发 送 IGMP 报 文 

pr ctlinput 0 IGMP 设 有 使 用 

pr ctloutput rip ctloutput 啊 应 来 自 进 程 的 管理 请 求 
pr usrreq rip usrreq 响应 来 自 进 程 的 通信 请 求 
pr init igmp init 为 IJGMP 初 始 化 

pr fasttimo igmp fasttino 进程 挂 起 成 员 关 系 报告 

pr slowtimo IGMP 设 有 使 用 

pr drain IGMP 没 有 使 用 

pr sysctl IGMP 设 有 使 用 





图 13-9 IGMP protosw 的 结构 


尽管 进程 有 可 能 通过 IGMP protosw 项 发 送 原始 IP 分 组 ， 但 在 本 章 ， 我 们 只 考虑 内 核 如 
何 处 理 IGMP 报 文 。 第 32 章 讨论 进程 如 何 用 原始 插口 访问 IGMP。 | 

三 种 事件 触发 IGMP 处 理 : 

。 一 个 本 地 接口 加 入 一 个 新 的 多 播 组 (13.5 市 )， 

。 某 个 IGMP 定 时 右 超 时 (13.6 证 )， 

* 收 到 一 个 IGMP 查 询 (13.7 市 )。 

还 有 两 种 事件 也 触发 本 地 IGMP 处 理 ， 但 结果 不 发 送 任何 报 文 : 

。 收 到 一 个 IGMP 报 告 (13.7 市 )， 

。 某 个 本 地 接口 离开 一 个 多 播 组 (13.8-)。 

下 一 节 将 讨论 这 五 种 事件 。 


13.5 加 入 一 个 组 : igmp joingroup 逊 数 


在 第 12 章 中 我 们 看 到 ， 当 一 个 新 的 in_multi 结 构 被 创建 时 ，in_addmulti 调 用 
igmp joingroup。 后 面 加 入 同一 多 播 组 的 请 求 只 增加 in_multi 结 构 里 的 引用 计数 ， 不 调 
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用 igmp joingroup, igmp joingroup 如 图 13-10 所 示 。 


164 void RES 

165 igmp. joingroup(inm) 

166 struct in.multi *inm; 

167 ( 

168 int S = Splnet(); 

169 if (inm-»inm addr.s addr == igmp all, hosts. group || 

170 inm-»inm ifp -- &loif) | 

174 inm-»inm timer = 0; 

172 else ( 

173 igmp sendreport (inm); 

174 inm-»inm timer = IGMP RANDOM DELAY (inm-»inm addr); 

128 igmp timers are running - 1; 

176 ) 

1717 splx (s); 

178 } l 
igmp.c 


图 13-10 igmp_joingroup tÁ% 


164-178 inm 指 向 组 的 新 in_multi 结 构 。 如 果 新 的 组 是 “所 有 主机 组 ， 或 成 员 关 系 请 求 
是 环 回 接口 的 ， 则 inm_ timez 被 禁止 ，igmp_joingroup 返 回 。 不 报告 “所 有 主机 组 ”的 
成 员 关 系 ， 因 为 假定 每 个 多 播 主机 都 是 该 组 的 成 员 。 没 必要 向 环 回 接口 发 送 组 成 员 报 告 
为 本 地 主机 是 在 回路 网 络 上 的 唯一 系统 ， 它 已 经 知道 它 的 成 员 状 态 了 。 

在 其 他 情况 下 ， 新 组 的 报告 被 立即 发 送 ， 并 根据 组 的 情况 为 组 定时 器 选择 一 个 随机 值 。 
全 局 标志 位 ijgmp_timers are _running 被 设置 ,表明 至 少 使 能 一 个 定时 比 
igmp fasttimo (13.6 市 ) 检 查 这 个 变量 ， 避 免 不 必 要 的 处 理 。 
59-73  ” 当 新 组 的 定时 器 超时 时 ， 就 发 布 第 2 次 成 员 关 系 报告 。 复 制 报 告 是 无 害 的 ， 当 弟 一 次 
报告 丢失 或 被 破坏 时 ， 有 了 它 就 保险 了 。IGMP_RANDOM_DELAY (图 13-11) 计 算 报告 时 延 。 
igmp_var.h 


* Macro to compute a random timer value between 1 and (IGMP MAX REPORTING . 

* DELAY * countdown frequency). We generate a "random" number by adding 
62 * the total number of IP packets received, our primary IP address, and the 

* 


63 multicast address being timed-out. The 4.3 random() routine really 
64 * ought to be available in the kernel! 

65  */ 

66 4define IGMP RANDOM DELAY (multiaddr) \ 

67 /* struct. in, addr multiaddr; */ X 

68 ( (ipstat.ips total ^ \ 

69 ntohl(IA SIN(in ifaddr)-»sin addr.s addr) + \ 
70 ntohl((multiaddr).s addr) ^ 

TI ) X 

T4 $ (IGMP MAX HOST REPORT DELAY * PR FASTHZ) + 1 \ 
TS ) 


igmp var.h 
图 13-11 IGMP RANDOM DELAY pÁ% 


根据 RFC 1122, fR EB ZR 4^ AO-—102iRHJBEPLEPZL(IGMP MAX HOST 
REPORT DELRAY)。 因 为 IGMP 定时 器 每 秒 被 减 去 5 次 (PR_FASTHZ),， 所 以 IGMP_RANDOM_ 
DELAY 必 须 选 择 一 个 在 1~50 之 间 的 随机 数 。 如 果 r 是 把 接 到 的 所 有 IP 分 组 数 、 主 机 的 原始 地 址 
和 多 播 组 相 加 后 得 到 的 随机 数 ， 则 
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0x (r mod 50) « 49 
] €(r mod 50)+1 <50 
要 避免 为 0， 因 为 这 会 禁止 定时 器 ， 并 且 不 发 送 任何 报告 。 
13.6 igmp fasttimorfZi 


fEiiEbigmp fasttinoz Bi, KIF ZaD PX in multi£t4fJHJgum. 
为 找到 各 个 in_multi 结 构 ，Net/3 必 须 遍 历 每 个 接口 的 in_multi 表 。 在 遍历 过 程 中 ， 
in_multistep 结 构 ( 图 13-12) 记 录 位 置 。 





123 struct in multistep ( in_parh 
124 struct in_ifaddr *i_ia; 
125 struct in multi *i_inm; 
126 Vk; 
in var.h 


图 13-12 in multistep% 


123-126 i ia 指向 下 一 个 in_ ifaddr 接 口 结 构 ，i inm 指 向 当前 接口 的 in multi 结 构 。 
IN FIRST MULTI 和 IN NEXT MULTIZ:(É]13-13)9 Ji, 


in var.h 
147 /* 
148 * Macro to step through all of the in multi records, one at a time. 
149 * The current position is remembered in "step", which the caller must 
150 * provide. IN FIRST MULTI(), below, must be called to initialize "step" 
151 * and get the first record. Both macros return a NULL "inm" when there 
152 * are no remaining records. 
153 žy 
154 #define IN NEXT MULTI(step, inm) \ 
155 /* $Struct in multistep step; */ N 
156 /* gtruüuct in multi Tinm; */ X 
LSF LO 
158 Lf (R(T) s (step).i.inm) l= NULL) X 
159 (step).i inm = (inm)-»inm next; \ 
160 else ^ 
161 while ((step).i ia !- NULL) ( N 
162 (inm) = (step).i ia-»ia multiaddrs; \ 
163 (step).i ia = (step).i ia-»ia next; \ 
164 if ((inm) != NULL) { ^ 
165 (step).i inm = (inm)-»inm next; \ 
166 break; \ 
167 Jy 
168 PN 
169 } 
170 #define IN_FIRST_MULTI (step, inm) \ 
171 /* struct in multistep step; */ \ 
172 /* strüct in multi *inm; */ XN 
A73 4 X 
174 (Step).i.ià = in ifaddr; \ 
175 (Step).i inm = NULL; \ 
176 IN NEXT MULTI((step), (inm)); \ 
174 4 


in. var.h 


图 13-13 IN FIRST _ MULTI 和 IN NEXT _ MULTI 结构 
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154-169 如果 in _ multi 表 有 多 个 项 ，i_inm 就 前 进 到 下 一 项 。 当 IN_NEXT _ MULTI 
到 达 多 播 表 的 最 后 时 ，i_ia 就 指向 下 一 个 接口 ，i_inm 指 向 与 该 接口 相关 的 第 一 个 
in_multi 结 构 。 如 果 该 接口 没有 多 播 结 构 ，whi1le 循 环 继续 遍历 整个 接口 表 ， 直 到 搜索 完 
所 有 接口 。 
170-177 in multistep 数 组 初始 化 时 ， 指 向 in_ifaddr 表 的 第 一 个 ljn_ifaddr 结 构 ， 
i inm 设 成 空 。IN_NEXT_MULTI 找 到 第 一 个 jn_multi 结 构 。 

从 图 13-9 我 们 知道 ，igmp_fasttimo 是 IGMP 的 快速 超时 函数 ， 每 秒 被 调用 5 次 。 
igmp_fasttimo( 图 13-14) 递 减 多 播报 告 定时 器 ， 并 在 定时 器 超时 时 发 送 一 个 报告 。 


187 void Lin a 

188 igmp. fasttimo() 

189 ( 

190 struct in multi *inm; 

191 int S; 

192 struct in multistep step; 

193 i 

194 * Quick check to see if any work needs to be done, in order 

195 * to minimize the overhead of fasttimo processing. 

196 e i 

197 if (!igmp timers are running) 

198 return; 

199 S = splnet(); 

200 igmp timers are running = O0; 

201 IN FIRST MULTI(step, inm); 

202 while (inm !- NULL) { 

203 if (inm-»inm timer == Q0) ( 

204 /* do nothing */ 

205 } else if (--inm-»inm timer == 0) { 

206 igmp sendreport (inm); 

207 ) else ( 

208 igmp timers are running - 1; 

209 } 

210 IN_NEXT_MULTI (step, inm); 

211 ) 

21.2 splx(s); 

213 ] . 
igmp.c 


图 13-14 igmp fasttinot&Z 


187-198 如 果 igmp timers_are_running 为 假 ，igmp_fasttimo 立 即 返回 ， 不 再 浪 
费时 间 检 查 各 个 定时 性 。 
199-213 igmp fasttimo 重 新 设置 运行 标志 位 ， 用 IN_FIRST_MULTI 初 始 化 step 和 
inm, igmp fasttimo 函 数 用 while 循 环 找到 各 个 jn_multi 结 构 和 IN_NEXT_MULTI 宏 。 
对 每 个 结构 : 

。 如 果 定 时 器 是 0， 什 么 都 不 做 。 

。 如 果 定 时 器 不 是 0， 则 将 其 递减 。 如 果 到 达 0， 则 发 送 一 个 IGMP 组 成 员 关 系 报告 。 

。 如果 定时 器 还 不 是 0， 则 至 少 还 有 一 个 定时 器 在 运行 ， 所 以 把 ijgmp_timers_are_ 

running 设 成 1。 
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igmp _ sendreport Až 


igmp_sendreport 函 数 (图 13-15) 为 一 个 多 播 组 构造 和 发 送 IGMP 报 告 报 文 。 


214 static void WP 

215 igmp sendreport (inm) 

216 struct in multi *inm; 

217 1 

218 struct mbuf *m; 

219 struct igmp *igmp; 

220 Struct ip *ip; 

221 struct ip moptions *imo; 

222 struct ip moptions simo; 

223 MGETHDR(m, M DONTWAIT, MT HEADER); 

224 if (m == NULL) 

225 return; 

226 [t 

2241 * Assume max linkhdr + sizeof(struct ip) + IGMP. MINLEN 

228 * is smaller than mbuf size returned by MGETHDR. 

229 " 

230 m-»m data += max linkhdr; 

231 m-»m len = sizeof(struct ip) + IGMP MINLEN; 

232 m-»m pkthdr.len = sizeof(struct ip) + IGMP MINLEN; 

233 ip = mtod(m, struct ip *'); 

234 ip-»ip tos = O0; 

235 ip-»ip len = sizeof(struct ip) + IGMP MINLEN; 

236 ip-»ip off = 0; 

237 ip-»ip p = IPPROTO IGMP; 

238 ip-»ip src.s addr - INADDR ANY; 

239 ip-»ip dst - inm-»inm addr; 

240 iğ s (Struct igmp *) (Xp + 12; 

241 igmp-»igmp type = IGMP HOST MEMBERSHIP. REPORT; 

242 igmp-»igmp code = 0; 

243 igmp-»igmp group = inm-»inm addr; 

244 igmp-»igmp cksum = 0; 

245 igmp-»-igmp cksum = in, cksum(m, IGMP MINLEN); 

246 imo - &simo; 

247 bzero((caddr t) imo, sizeof(*imo)); 

248 imo-»imo multicast ifp = inm-»inm ifp; 

249 imo-»imo multicast ttl = 1; 

250 f* 

251 * Request loopback of the report if we are acting as a multicast 

252 * router, so that the process-level routing demon can hear it. 

253 ui d 

254 ( 

255 extern struct socket *ip mrouter; 

256 imo-»imo multicast loop = (ip mrouter !- NULL); 

257 ) 

258 ip output(m, NULL, NULL, 0, imo); 

259 --igmpstat.igps snd reports; 

260 ) " 
igmp.c 


图 13-15 igmp sentreport pk% 


214-232 唯一 的 参数 inm 指 向 被 报告 组 的 in_multi 结 构 。igmp_sendreport 分 配 一 个 
新 的 mbuf， 准 备 存放 一 个 IGMP 报 文 。igmp_sendreport 为 链 路 层 首 部 留 下 空间 ， 把 mbuf 
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的 长 度 和 分 组 的 长 度 设 成 IGMP 报 文 的 长 度 。 

233-245 每 次 构造 IP 首 部 和 IGMP 报 文 的 一 个 字段 。 数 据 报 的 产地 址 设 成 INADDR_ANY， 目 
的 地 址 是 被 报告 的 多 播 组 。ip_output 用 输出 接口 的 单 播 地 址 替换 INADDR_RANY。 每 个 组 成 
员 和 所 有 多 播 路 由 器 都 接收 报告 (因为 路 由 器 接收 所 有 IP 多 播 )。 

246-260 最 后 ，igmp _sentreport 构 造 一 个 jp _moptions 结 构 ， 并 把 它 与 报 文 一 起 传 
给 ijp_output。 与 in_multi 结 构 相关 的 接口 被 选 作 输 出 的 接口 ，TTL 被 设 成 1， 使 报告 只 
在 本 地 网 络 上 ;如果 本 地 系统 被 配置 成 路 由 如 ， 则 允许 这 个 请 求 的 多 播 环 回 。 


进程 级 的 多 播 路 由 器 必须 监听 成 员 关 系 报告 。 在 12.14 节 中 我 们 看 到 ， 当 系统 被 
配置 成 多 播 路 由 器 时 ， 总 是 接收 IGMP 数 据 报 。 通 过 普通 的 运输 层 分 用 代码 把 报 文 传 
给 IGMP 的 ijgmp input 和 pr _ input 函数 (图 13-9)。 


13.7 输入 处 理 : igmp input 函数 


在 12.14 节 中 ， 我 们 描述 了 ipintz 的 多 播 处 理 部 分 。 我 们 看 到 ， 多 播 路 由 器 接受 (accept) 
所 有 的 IGMP 报 文 ， 但 多 播 主机 只 接受 那些 到 达 接 口 是 目的 多 播 组 成 员 的 IGMP 报 文 ( 即 ， 那 些 
接收 (receive) 它 们 的 接口 是 组 成 员 的 查询 和 成 员 关 系 报告 )。 

标准 协议 分 用 机 制 把 接受 的 报 文 传 给 ijgmp_input。igmp_input 的 开始 和 结束 如 图 13-16 
所 示 。 下 面 几 市 描述 每 种 IGMP 报 文 类 型 码 。 

ROI Wenn RM M CIN MODE LM RCM Lol 


53 igmp input(m, iphlen) 
54 struct mbuf *m; 


55 Ant iphlen; 

56 ( 

57 struct igmp *igmp; 

58 struct ip *ip; 

59 int igmplen; 

60 struct ifnet *ifp - m-»m pkthdr.rcvif; 
61 int minlen; 

62 struct in multi *inm; 

63 struct in ifaddr *ia; 

64 struct in multistep step; 

65 --igmpstat.igps rcv total; 

66 ip = mtod(m, struct ip *): 

67 igmplen - ip-»ip len; 

68 px 

69 * Validate lengths 

70 - 

71 if (igmplen < IGMP MINLEN) { 

72 -x-«igmpstat.igps rcv tooshort; 

73 m freem(m); 

74 return; 

75 ) 

76 minlen = iphlen + IGMP MINLEN; 

T2 if ((m-»m flags & M EXT || m-»m len « minlen) && 
78 (m = m pullup(m, minlen)) == O0) 4 
79 --«igmpstat.igps rcv tooshort; l 
80 return; 

81 } 


图 13-16 igmp input Á% 
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82 yx 
83 * Validate checksum 
84 i a 
85 m-»m data += iphlen; 
86 m-»m len -- iphlen; 
87 igmp - mtod(m, struct igmp *); 
88 if (in cksum(m, igmplen)) { 
89 --igmpstat.igps rcv, badsum; 
90 m freem(m); 
91 return; 
92 ) 
93 m-»m data -- iphlen; 
94 Ir-»m len += iphlen; 
95 ip = mtodüun, struct ip *); 
96 switch (igmp-»igmp type) ( 
/* switch cases * 
157 ) 
158 P" 
159 * Pass all valid IGMP packets up to any process(es) listening 
160 * on a raw IGMP socket. 
161 "A 
162 rip input (m); 
153 } 
igmp.c 
图 13-16 (£x) 
1. 验证 IGMP 报 文 
52-96 国 数 ipintz 传 递 一 个 指 癌 所 接收 分 组 (存放 在 一 个 mbuf 中 ) 的 指针 m， 以 及 数据 报 IP 
首部 的 大 小 ijphlen.。 


数据 报 的 长 度 必须 足够 容纳 一 个 IGMP 报 文 (IGMP_MIN_LEN)， 并 能 被 放 在 一 个 标准 的 
mbuf 首 部 中 (m_pullup)， 而 且 还 必须 有 正确 的 IGMP 检 验 和 。 如 果 发 现 有 任何 错误 ， 统 计 错 
误 的 个 数 ， 并 自动 丢弃 该 数据 报 ，igmp_input 返 回 。 

igmpP_input 畏 数 体 根据 igmp_type 内 的 代码 处 理 无 效 报 文 。 记 得 在 图 13-6 中 ， 
igmp_type 包 含 一 个 版 本 码 和 一 个 类 型 码 。switch 语 句 基于 igmp_type( 图 13-7) 中 两 个 值 
的 结合 。 下 面 几 节 分 别 讨 论 每 种 情况 。 

2. 把 IGMP 报 文 传 给 原始 IP 
157-163 这 个 switch 语 句 没 有 default 情 况 。 所 有 有 效 报 文 (也 就 是 格式 正确 的 报 文 ) 被 
传 给 rip_input ,在 rip_input 里 被 提交 给 所 有 监听 IGMP 报 文 的 进程 。 监 听 进 程 可 以 自由 
处 理 或 丢弃 那些 有 具有 内 核 不 识别 的 版 本 或 类 型 的 IGMP 报 文 。 


mrouted 依 靠 对 rip_input 的 调用 接收 成 员 关 系 查 询 和 报告 。 


13.7.1 成 员 关 系 查 询 : IGMP HOST MEMBERSHIP QUERY 


RFC 1075 推 荐 多 播 路 由 器 每 120 秒 至 少 发 布 一 次 IGMP 成 员 关 系 查 询 。 把 查询 发 到 
224.0.0.1 组 (“所 有 主机 组 ”)。 图 13-17 显 示 了 主机 如 何 处 理 报 文 。 
97-122 ”到 达 环 回 接口 上 的 查询 报 文 被 自动 丢弃 (习题 13.1)。 查 询 报 文 被 定义 成 发 给 “所 有 
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主机 组 ”"， 到 达 其 他 地 址 的 查询 报 文 由 igps_rcv_badqueries 统 计数 量 ， 并 被 丢弃 。 


igmp.c 

97 case IGMP HOST MEMBERSHIP. QUERY: 

98 -t-igmpstat.igps rcv queries; 

99 if (ifp se &loif) 

100 break; 

101 if (ip-»ip dst.s addr !- igmp all hosts group) ( 

102 --«igmpstat.igps rcv badqueries; 

103 m freem(m); 

104 return; 

105 ) 

106 [* 

107 * Start the timers in all of our membership records for 
108 * the interface on which the query arrived, except those 
109 * that are already running and those that belong to the 
110 * "all-hosts" group. 
Lll wf 

112 IN. FIRST MULTI(step, inm); 
113 while (inm !- NULL) { 

114 if (inm-»inm ifp == ifp && inm-»inm timer == 0 && 
115 inm-»inm addr.s addr !- igmp all hosts group) ( 
116 inm-»inm timer = 

IIT IGMP RANDOM DELAY (inm->inm addr); 

118 igmp timers, are running = 1; 

119 ) 

120 IN NEXT MULTI(step, inm); 
121 ) 
122 break; 


igmp.c 
13-17. IGMP 查 询 报 文 的 输入 处 理 


接收 查询 报 文 并 不 会 立即 引起 IGMP 成 员 报告 。 相 反 ，igmp_input 为 与 接收 查询 的 接口 相 
关 的 各 个 组 定时 器 设置 一 个 随机 的 值 IGMP_RANDOM _DELAY。 当 某 组 的 定时 絮 超 时 ， 则 
igmp_fasttimo 发 送 一 个 成 员 关 系 报告 , 与 此 同时 , 其 他 所 有 收 到 查询 的 主机 也 进行 同一 动作 。 
一 旦 某 个 主机 上 的 某 个 特定 组 的 随机 定时 器 超时 ， 就 向 该 组 多 播 一 个 报告 。 这 个 报告 将 取消 其 
他 主机 上 的 定时 器 ， 保证 只 有 一 个 报告 在 网 络 上 多 播 。 路 由 器 与 其 他 组 成 员 一 样 ， 接 收 该 报告 。 
这 个 情况 的 一 个 例外 就 是 “所 有 主机 组 ”。 这 个 组 不 设 定时 器 ， 也 不 发 送 报告 。 


13.7.2 成 员 关 系 报告 : IGMP HOST MEMBERSHIP REPORT 


接收 一 个 IGMP 成 员 关 系 报告 是 我 们 在 13.1 市 中 提 到 的 不 会 产生 IGMP 报 文 的 两 种 事件 之 
一 。 该 报 文 的 效果 限于 接收 它 的 接口 本 地 。 图 13-18 显 示 了 报 文 处 理 。 

123-146 和 发 送 到 不 正确 多 播 组 的 成 员 关系 报告 一 样 ， 发 到 环 回 接口 上 的 报告 被 丢弃 。 也 
就 是 说 ， 报 文 必须 寻 址 到 报 文 内 标识 的 组 。 

未 完整 初始 化 的 主机 的 源 地 址 中 可 能 没有 网 络 号 或 主机 号 (或 两 者 都 没有 )。 
igmp_report 查 看 地 址 的 A 类 网 络 部 分 ， 如 果 地 址 的 网 络 或 子 网 部 分 是 0， 这 部 分 一 定 为 0。 
如 果 是 这 种 情况 ， 则 把 源 地 址 设 成 子 网 地 址 ， 其 中 包含 正在 接收 接口 的 网 络 标识 符 和 子 网 标 
识 符 。 这 样 做 的 唯一 目的 是 通知 子 网 号 所 标识 的 正在 接收 接口 上 的 某 个 进程 级 守护 程序 。 

如 果 接 收 接口 属于 被 报告 的 组 ， 就 把 相关 的 报告 定时 器 重新 设 成 0， 从 而 使 发 给 该 组 的 第 
一 个 报告 能 够 制止 其 他 主机 发 布 报告 。 路 由 器 只 需 知道 网 络 上 至 少 有 一 个 接口 是 组 的 成 员 ， 
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igmp.c 

123 case IGMP HOST MEMBERSHIP REPORT: 

124 -x-igmpstat.igps rcv reports; 

125 if (rfp == &loiít) 

126 break; 

127 if (!IN. MULTICAST (ntohl(igmp-»igmp group.s addr)) || 

128 igmp-»igmp group.s adar l= ip-»ip dst.s adar) { 

129 -*-igmpstat.igps rcv badreports; 

130 m freem(m); 

134 return; 

1323 ) 

133 yx 

134 * KLUDGE: if the IP source address of the report has an 

135 * unspecified (i.e., zero) subnet number, as is alloówed for 

136 * a booting host, replace it with the correct subnet number 

137 * so that a process-level multicast routing demon can 

138 * determine which subnet it arrived from. This is necessary 

139 * to compensate for the lack of any way for a process to 

140 * determine the arrival interface of an incoming packet. 

141 "y 

142 if ((ntohlí(ip-»ip.src.s.addr) & IN.CLASSA NET) == 0) { 

143 IFP TO IA(ifp, ia); 

144 if (ia) 

145 ip-»ip src.s addr = htonl(ia-»ia, subnet); 

146 ) 

147 [x 

148 * If we belong to the group being reported, stop 

149 * our timer for that group. 

150 "yr 

151 IN. LOOKUP. MULTI(igmp-»igmp group, ifp, inm); 

154 if (inm ts NULL) ( 

153 inm->inm_timer = 0; 

154 ++igmpstat.igps_rcv_ourreports; 

155 ) 

156 break; : 
igmp.c 


图 13-18 IGMP 报 告 报 文 的 输入 处 理 


13.8 离开 一 个 组 : igmp leavegroup 函 数 


我 们 在 第 12 章 中 看 到 ， 当 in_multi 结 构 中 的 引用 计数 器 跳 到 0 时 ，in_delmulti 调 用 
igmp leavegroup， 如 图 13-19 所 示 。 
179 void igmp.c 


180 igmp leavegroup(inm) 
181 struct in multi *inm; 


182 1 

183 A* 

184 * No action required on leaving a group. 
185 kJ 

186 ) 


igmp.c 


图 13-19 igmp leavegroup 国 数 
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179-186 当 一 个 接口 离开 一 个 组 时 ，IGMP 没 有 采取 任何 动作 。 不 发 明确 的 通知 一 一 下 一 次 
多 播 路 由 器 发 布 IGMP 查 询 时 ， 接 口 不 为 该 组 生成 IGMP 报 告 。 如 果 没 有 为 某 个 组 生成 报告 ， 
则 多 播 路 由 器 就 假定 所 有 接口 已 经 离开 该 组 ， 并 停止 把 到 该 组 的 分 组 在 网 络 上 多 播 。 

如 果 当 一 个 报告 被 挂 起 时 接口 离开 了 该 组 (也 就 是 说 ， 此 时 组 的 报告 定时 器 正在 计时 )， 就 
不 绸 发 送 该 报告 ， 因 为 当 icmp_leavegroup 返 回 时 ，in_dqelmulti( 图 12-36) 已 经 把 组 的 
定时 器 及 其 相关 的 jn_multi 结 构 丢 掉 了 。 


13.9 j£ 


本 章 我 们 讲述 了 IGMP，IGMP 在 一 个 网 络 上 的 主机 和 路 由 器 之 间 传 递 了 多 播 成 员 信息 。 
当 一 个 接口 加 入 一 个 组 时 (或 按照 多 播 路 由 器 发 布 的 IGMP 报 告 查询 报 文 的 要 求 )， 生 成 IGMP 
成 员 关 系 报告 。 

设计 IGMP 使 交换 成 员 信息 所 需要 的 报 文 数 最 少 : 

* 当主 机 加 入 一 个 组 时 ， 宣 布 它 们 的 成 员 关 系 ， 

* 对 成 员 关 系 查 询 的 啊 应 被 随机 推迟 一 个 的 时 间 ， 而 且 第 一 个 响应 抑制 了 其 他 的 响应 ， 

"当主 机 离开 一 个 组 时 ， 不 发 通知 报 文 ， 

* 每 分 钟 发 的 成 员 查 询 不 超过 一 次 。 

多 播 路 由 器 与 其 他 路 由 器 共享 自己 收集 的 IGMP 信 息 ( 第 14 章 )， 以 便于 把 多 播 数 据 报 传 给 
多 播 目的 组 的 远程 成 员 。 


2] zi 


13.1 为 什么 不 需要 啊 应 在 环 回 接口 上 到 达 的 IGMP 查 询 ? 
13.2 验证 图 13-15 中 226 到 229 行 的 假设 。 
13.3 对 在 点 到 点 网 络 接 口上 到 达 的 成 员 关系 查询 ， 是 否 有 必要 设置 随机 的 延迟 时 间 ? 
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14.4 引言 


前 面 两 章 讨论 了 在 一 个 网 络 上 的 多 播 。 本 章 我 们 讨论 在 整个 互联 网 上 的 多 播 。 我 们 将 
讨论 mrzouted 程 序 的 执行 ， 该 程序 计算 多 播 路 由 表 ， 以 及 在 网 络 之 间 转 发 多 播 数 据 报 的 内 
Tx ER 2T 

从 技术 上 说 ， 多 播 分 组 (packet) 被 转发 。 本 章 我 们 假定 每 个 多 播 分 组 中 都 包含 一 

个 完整 数据 报 ( 也 就 是 说 ， 没 有 分 片 )， 所 以 我 们 只 用 名 词 数据 报 (datagram)。Net/3 转 


发 JP 分 片 ， 也 转发 JP 数据 报 。 


14-1 是 mrouted 的 几 个 版 本 及 它们 和 BSD 






版 本 的 对 应 关系 。mrouted 版 本 包括 用 户 级 守护 ha eri von poc 
2.0 4.4 BSD 和 Net/3 
程序 和 内 核 级 多 播 程序 。 3.3 修改 SunOS 4.1.3 
IP 多 播 技术 是 一 个 活跃 的 研究 和 开发 领域 。 
本 章 讨论 包括 在 Net/3 中 的 多 播 软件 的 2.0 版 ， 但 ACE EE 


被 认为 已 经 过 时 了 。3.3 版 的 发 行 还 有 一 段 时 间 ， 因 此 无 法 在 本 书 中 完整 地 讨论 ， 但 我 们 在 整 
个 过 程 中 将 指出 3.3 版 本 的 一 些 特点 。 

因为 还 没有 广泛 安装 商用 多 播 路 由 器 ， 所 以 常用 多 播 隧 道 连接 标准 IP 单 播 互 联网 上 的 两 
个 多 播 路 由 器 ， 构 造 多 播 网 络 。Net3 支 持 多 播 隧道 ， 并 采用 宽松 源 站 记录 路 由 (LSRR，Loose 
Source Record Route) 选 项 (9.6 市 ) 构 造 多 播 隧道 。 一 种 更 好 的 隧道 技术 把 IP 多 播 数 据 报 封装 在 
一 个 单 播 数据 报 里 ，3.3 版 的 多 播 程 序 支 持 这 一 技术 ， 但 Net/3 不 支持 。 

与 第 12 章 一 样 ， 我 们 用 通常 名 称 运输 层 协 议 代 指 发 送 和 接收 多 播 数 据 报 的 协议 ， 但 UDP 
是 唯一 支持 多 播 的 Internet 协 议 。 


14.2 代码 介绍 
本 章 讨论 的 三 个 文件 显示 在 图 14-2 中 。 


TET 


netinet/ ip mroute.c | 多 播 选 路 函数 
netinet/raw ip.c 多 播 选 路 选项 


图 14-2 本 章 讨论 的 文件 







14.2.1 全 局 变量 


多 播 选 路 程序 所 使 用 的 全 局 变量 显示 在 图 14-3 中 。 
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cached mrt struct mrt 多 播 选 路 的 “后 面 一 个 ”高 速 缓存 
cached origin u long “后 面 一 个 ”高 速 缓存 的 多 播 组 
cached originmask | u long “后 面 一 个 ”高 速 缓存 的 多 播 组 的 掩 码 


mrtstat struct mrtstat | 多 播 选 路 统计 

mrttable struct mrt *[] | 指向 多 播 路 由 器 的 指针 的 散 列表 
numvifs vifi t 人 允许 的 多 播 接口 数 

viftable struct vif[] 虚拟 多 播 接口 的 数组 


图 14-3 本 章 介绍 的 全 局 变量 





14.2.2 统计 量 


多 播 选 路 程序 收集 的 所 有 统计 信息 都 放 在 图 14-4 的 mrtstat 结 构 中 。 图 14-5 是 在 执行 
netstat -gs 命令 后 ， 输 出 的 统计 信息 。 


mrts mrt lookups 查找 的 多 播 路 由 数 
mrts mrt misses 高 速 缓 存 丢失 的 多 播 路 由 数 
mrts grp lookups | 查找 的 组 地 址 数 


mrts grp misses 高 速 缓 存 丢 失 的 组 地 址 数 

mrts no route 查找 失败 的 多 播 路 由 数 

mrts bad tunnel 有 错误 的 隧道 选项 的 分 组 数 
mrts cant tunnel | 没有 空间 存放 隧道 选项 的 分 组 数 





图 14-4 本 章 收 集 的 统计 量 


netstat -gs 输出 mrtstat 成 员 


multicast routing: 

329569328 multicast route lookups 

9377023 multicast route cache misses 
242754062 group address lookups 
159317788 group address cache misses 
65648 datagrams with no route for origin 

0 datagrams with malformed tunnel options 
0 datagrams with no room for tunnel options 


图 14-5 IP 多 播 路 由 选择 统计 的 例子 


这 些 统 计 信息 来 自 一 个 有 两 个 物理 接口 和 一 个 隧道 接口 的 系统 。 它 们 说 明 ，98% 的 时 间 ， 
在 高 速 缓存 中 发 现 多 播 路 由 。 组 地 址 高 速 缓 存 的 效率 稍 低 一 些 ， 最 高 只 有 34%。 图 14-34 描 述 
了 路 由 缓存 ， 图 14-21 描 述 了 组 地 址 高 速 缓存 。 


14.2.3 SNMP 变 量 



























mrts mrt lookups 
mrts mrt misses 
mrts grp lookups 
mrts grp misses 
mrts no route 

mrts bad tunnel 
mrts cant tunnel 









多 播 选 路 没有 标准 的 SNMP MIB, fH [McCloghrie 和 Farinacci 1994a] 和 [McCloghrie 和 
Farinacci 1994b] 摘 述 一 些 多 播 路 由 器 的 实验 MIB 。 


14.3 多 播 输出 处 理 ( 续 ) 
12.15 节 讲 到 如 何 为 输出 的 多 播 数据 报 选择 接口 。 我 们 看 到 在 ip_moptions 结 构 中 
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ip_output 被 传 给 一 个 明确 的 接口 ， 或 者 ijp_output 在 路 由 表 中 查找 目的 组 ， 并 使 用 在 路 
由 条 目 中 返回 的 接口 。 

如 果 在 选择 了 输出 的 接口 后 ，ip_output 回 送 该 数据 报 ， 就 把 它 放 在 所 选 输出 接口 等 符 
输入 处 理 ， 当 ipintr 处 理 它 时 ， 把 它 当 作 是 要 转发 的 数据 报 。 图 14-6 显 示 了 这 个 过 程 。 


传输 协议 







ip mloopback)«- - - 






隧道 以 太 网 
图 14-6 有 环 回 的 多 播 输出 处 理 


在 图 14-6 中 ， 虚 线 稍 头 代 表 原 始 输出 的 数据 报 ， 本 例 是 本 地 以 太 网 上 的 多 播 。 
ip_mloopback 创 建 的 备份 由 带 箭 头 的 细 线 表示 ， 并 作为 输入 被 传 给 运输 层 协 议 。 当 
ip_mforward 决 定 通过 系统 上 的 另 一 个 接口 转发 该 数据 报时 ， 就 产生 第 三 个 备份 。 图 14-6 中 
最 粗 的 箭头 代表 第 三 个 备份 ， 在 多 播 隧 道上 发 送 。 

如 果 数 据 报 不 是 回 送 的 ， 则 ip_output 把 
它 直接 传 给 ip mforward, ip mforward X 
制 并 处 理 该 数据 报 ， 就 像 它 是 从 ip_output | 
选 定 的 接口 上 收 到 的 一 样 。 图 14-7 显 示 了 这 个 

—Hip _mforward 调 用 ip output 发 类 
多 播 数 据 报 ， 它 就 把 IP FORWARDING 置 位 ， 
这 样 ，ip_output 就 不 再 把 数据 报 传 回 给 
ip_mforward， 以 免 导 致 无 限 人 循环 。 

图 12-42 显 示 了 ip mloopback, 14.875 
描述 了 ip mforward, 


14.4 mrouted 守 护 程 序 





隧道 以 太 网 
图 14-7 没有 环 回 的 多 播 输 出 处 理 


用 户 级 进程 mrouted 和 守护 程序 允许 和 管理 多 播 路 由 选择 。mrouted 实 现 IGMP 协 议 的 路 
由 部 分 ， 并 与 其 他 多 播 路 由 器 通信 ， 实 现 网 络 间 的 多 播 路 由 选择 。 路 由 算法 在 mrouted 上 实 
现 ， 但 内 核 维护 多 播 路 由 选择 表 ， 并 转发 数据 报 。 

本 书 中 我 们 只 讨论 支持 mrouted 的 内 核 数 据 结构 和 函数 一 一 不 讨论 mrouted 本 身 。 我 们 
讨论 用 于 为 数据 报 选 择 路 由 的 截断 逆 癌 路 径 广播 TRPB(Truncated Reverse Path Broadcast) 算 法 
[Deering 和 Cheriton 1990]， 以 及 用 于 在 多 播 路 由 器 之 间 传 递 信息 的 距离 问 量 多 播 选 路 协议 
DVMRP, 我 们 力求 使 读者 了 解 内 核 多 播 程序 的 工作 原理 。 
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RFC 1075 [Waitzman, Partidge 和 Deering1988] 是 DYVMRP 的 一 个 老 版 本 。mrouted 实 现 
了 一 个 新 的 DVYMRP， 还 没有 用 RFC 文 档 写 出 来 。 目 前 ,该 算法 和 协议 的 最 好 的 文档 是 
mrouted 发 布 的 源 代码 。 附 录 B 指 出 在 哪里 能 找到 到 源 代 码 。 

mrouted 守 护 程序 通过 在 一 个 IGMP 揪 口上 设置 选项 与 内 核 通 信 ( 第 32 章 )。 这 些 选 项 总 结 
在 图 14-8 中 。 


DVMRP INIT ip mrouter init | mrouted 开 始 
DVMRP DONE ip mrouter done | mrouted 被 关闭 
DVMRP ADD VIF struct vifctl add vif 增加 虚拟 接口 


DVMRP DEL VIF vifi t del vif 删除 虚拟 接口 
DVMRP ADD LGRP | struct lgrplctl | add lgrp 为 某 个 接口 增加 多 播 组 条 目 
DVMRP DEL LGRP | struct lgrplctl del lgrp 为 某 个 接口 删除 多 播 组 条 目 
DVMRP ADD MRT struct mrtctl add mrt 增加 多 播 路 由 
DVMRP DEL MRT struct in addr del mrt 删除 多 播 路 由 





图 14-8 多 播 路 由 插口 选项 


图 14-8 显 示 的 插口 选项 被 setsockopt 系 统 调用 传 给 rip _ ctloutput(32.8 市 )。 图 14-9 
显示 了 处 理 DVMRP xxx 选项 的 rip _ ctloutput 部 分 。 


raw ip.c 
173 case DVMRP INIT: 
174 case DVMRP DONE: 
175 case DVMRP. ADD VIF: 
176 case DVMRP. DEL, VIF: 
LYSA case DVMRP_ADD_LGRP: 
178 case DVMRP_DEL_LGRP: 
179 case DVMRP_ADD_MRT: 
180 case DVMRP_DEL_MRT: 
181 if (Op sz PRCO.SETOPT) ( 
182 error = ip mrouter, cmd(optname, so, *m); 
183 if (*m) 
184 (void) m free(*m); 
185 ) else 
186 error - EINVAL; 
187 return (error); : 
cuc M A D CC —-— e —— H——— M Áeà : 芝 


图 14-9 rip ctloutput pÁ: DVMRP xxx 插口 选项 


173-187 当 调 用 setsockopt 时 ，op 等 于 PRCO_ SETOPT， 而 且 所 有 选项 都 被 传 给 
ip mrouter_cmdq 畏 数 。 对 于 getsockopt 系 统 调 用 ，op 等 于 PRCO_GETOPT;， 对 所 有 选项 
都 返回 EINVRAL 。 

图 14-10 显 示 了 ip mrouter cmdr& AX, 


ip mroute.c 
84 int 
85 ip mrouter cmd(cmd, so, m) 
86 int cmd; 


87 struct socket *50; 

88 struct mbuf *m; 

89 ( 

90 int error = 0; 


图 14-10 ip mrouter cma% 
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if (cmd != DVMRP INIT && so !- ip mrouter) 
error - EACCES; | 

else 
switch (cmd) ( 


case DVMRP INIT: 
error - ip mrouter init(so); 
break; 


case DVMRP. DONE: 
error - ip mrouter done(); 
break; 


case DVMRP ADD VIF: 
if (m == NULL || m-»m len < sizeof(struct vifctl)) 
error - EINVAL; 
else 
error = add vif(mtod(m, struct vifctl *)); 
break; 


case DVMRP DEL VIF: 
if (m == NULL || m-»m len < sizeof(short)) 
error - EINVAL; 
else 
error - del vif(mtod(m, vifi t *)); 
break; 
case DVMRP ADD LGRP: 
if (m == NULL || m-»m len < sizeof(struct lgrplctl)) 
error - EINVAL; 
else 
error - add lgrp(mtod(m, struct lgrplctl *)); 
break; 


case DVMRP DEL  LGRP: 
if (m == NULL || m-»m len < sizeof(struct lgrplctl)) 
error - EINVAL; 
else 
error = del lgrp(mtod(m, struct lgrplctl *)); 
break; 


case DVMRP ADD MRT: 
if (m == NULL || m-»m len < sizeof(struct mrtctl)) 
error - EINVAL; 
else 
error - add mrt(mtod(m, struct mrtctl *)); 
break; 


case DVMRP DEL, MRT: 
if (m == NULL || m-»m len < sizeof(struct in. addr)) 
error = EINVAL; 


else 
error - del mrt(mtod(m, struct in addr *)); 
break; 
default: 
error - EOPNOTSUPP; 
break; 


) 
return (error); 


ip mroute.c 
图 14-10 (£X) 
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这 些 “选项 ”更 像 命 令 ， 因 为 它们 引起 内 核 更 新 多 个 数据 结构 。 本 章 后 面 我 们 
将 使 用 命令 (Command) 一 词 强 调 这 个 事实 。 
84-92 mrouted 发 布 的 第 一 个 命令 必须 是 DVMRP INIT。 后 续 命令 必须 来 自发 布 
DVMRP_INIT 的 同一 插口 。 当 在 其 他 插口 上 发 布 其 他 命令 时 ， 返 回 EACCES.。 
94-142 switch 语 句 的 每 个 case 语 句 检 查 每 条 命令 中 的 数据 量 是否 正 确 ， 然 后 调用 匹配 函 
数 。 如 果 不 能 识别 该 命令 ， 则 返回 EOPNOTSUPP。 任 何 从 匹配 函数 返回 的 错误 都 在 error 中 


发 布 ， 并 在 函数 的 最 后 返回 。 
初始 化 时 ，mrouted 发 布 DVMRP_INIT 命 令 ， 调 用 图 14-11 显 示 的 ijp_ mrouter init, 





-一 一 ip mroute.c 
146 static int 
147 ip mrouter init(so) 
148 struct socket *so; 
149 ( 
150 if (so-»so type !- SOCK RAW || 
151 SO-»SO, proto-»pr protocol !- IPPROTO IGMP) 
152 return (EOPNOTSUPP); 
153 if (ip_mrouter != NULL) 
154 return (EADDRINUSE); 
1855 ip mrouter - so; 
156 return (0); 
157 ] * 

ip mroute.c 





图 14-11 ip mrouter _ init 畏 数 : DVMRP _ INIT 命令 


146-157 如 果 不 是 在 某 个 原始 IGMP 插 口上 发 布 命令 ， 或 者 如 果 DVMRP_INIT 已 经 被 置 位 ， 
则 分 别 返回 EOPNOTSUPP 和 BERDDRINUSE。 全 局 变量 ip mrouter 保 存 指向 某 个 插口 的 指针 ， 
初始 化 命令 就 是 在 该 插口 上 发 布 的 。 必 须 在 该 插口 上 发 布 后 续 命 令 。 以 避免 多 个 mrouted 进 
程 的 并 行 操作 。 

下 面 几 市 讨论 其 他 DVMRP_xxx 命 令 。 


14.5 虚拟 接口 


当 作 为 多 播 路 由 闫 运行 时 ，Net3 接 收 到 达 的 多 播 数据 报 ， 复 制 它们 ， 并 在 一 个 或 多 个 接 
口上 转发 备份 。 通 过 这 种 方式 ， 数 据 报 被 转发 给 互联 网 上 的 其 他 多 播 路 由 器 。 





网 络 A 任意 实现 LSRR 的 单 播 IP 路 由 器 集 网 络 B 


src-HS src-HS src-HS 
dst=G dst-T, dst=G 
四 数据 报 没有 LSRR 的 IP 单 播 没有 LSRR 的 
硬件 多 播 LSRR = {TS,G} 硬件 多 播 


图 14-12 多 播 隧道 
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输出 的 接口 可 以 是 一 个 物理 接口 ， 也 可 以 是 一 个 多 播 隧道 。 多 播 隧 道 的 两 端 都 与 一 个 多 
播 路 由 右上 的 茶 个 物理 接口 相关 。 多 播 障 道 使 两 个 多 播 路 由 问 ， 即 使 被 不 能 转发 多 播 数 据 报 
的 路 由 器 分 隔 ， 也 能 够 交换 多 播 数 据 报 。 图 14-12 是 一 个 多 播 隧道 连接 的 两 个 多 播 路 由 器 。 

图 14-12 中 ， 网 络 A 上 的 源 主机 HS 正在 向 组 G 多 播 数据 报 。 组 G 的 唯一 成 员 在 网 络 B 上 ， 并 
通过 一 个 多 播 隧 道 连接 到 网 络 A。 路 由 融 A 接 收 多 播 (因为 多 播 路 由 费 接收 所 有 多 播 )， 查 询 它 
的 多 播 路 由 选择 表 ， 并 通过 多 播 隧道 转发 该 数据 报 。 

隧道 的 开始 是 路 由 器 A 上 的 一 个 物理 接口 ， 以 IP 单 播 地 址 TT 标识 。 隧 道 的 结束 是 网 络 B 上 
的 一 个 物理 接口 ， 以 IP 单 播 地 址 T. 标 识 。 隧 道 本 身 是 一 个 任意 复杂 的 网 络 ， 由 实现 LSRR 选 项 
的 IP 单 播 路 由 颖 连接 起 来 。 图 14-13 显 示 IP LSRR 选 项 如 何 实现 多 播 隧道 。 


| pue | & à | 


在 网 络 A 上 
在 隧道 上 
在 路 由 器 B 上 ip_dooptions 之 后 
在 路 由 器 B 上 ip _mforward 之 后 













图 14-13 LSRR 多 播 隧 道 选 项 


图 14-13 的 第 一 行 是 HS 在 网 络 A 上 发 送 的 多 播 数 据 报 。 路 由 右 A 全 部 接收 ， 因 为 多 播 路 由 
器 接收 本 地 连接 的 网 络 上 的 所 有 数据 报 。 

为 通过 隧道 发 送 数据 报 ， 路 由 器 A 在 IP 首 部 揪 入 一 个 LSRR 选 项 。 第 二 行 是 在 隧道 上 离开 
A 时 的 数据 报 。LSRR 选 项 的 第 一 个 地 址 是 隧道 的 源 地 址 ， 第 二 个 地 址 是 目的 多 播 组 地 址 。 数 
据 报 的 目的 地 址 是 工 一 一 隧道 的 另 一 端 。LSRR 偏 移 指向 目的 组 。 

经 过 隧道 的 数据 报 被 转发 ， 通 过 互联 网 ， 直 到 它 到 达 路 由 器 B 上 的 隧道 的 另 一 端 。 

该 图 中 的 第 三 行 是 被 路 由 器 B 上 的 ip_dooptions 处 理 之 后 的 数据 报 。 记 得 第 9 章 中 讲 到 ， 
ip_dqooptions 在 ipintzr 检 查 数据 报 的 目的 地 址 之 前 处 理 LSRR 选 项 。 因 为 数据 报 的 目的 地 
址 (T.) 和 路 由 器 B 上 的 一 个 接口 匹配 ， 所 以 ijp_dooptions 把 由 选项 偏 移 (本 例 中 是 G) 标 识 的 
地 址 复制 到 IP 首 部 的 目的 地 址 字段 。 在 选项 内 ，G 被 ip_rtaddtr 返 回 的 地 址 取代 ， 
ip_rtaddqr 通 常 根据 了 P 目 的 地 址 (本 例 中 是 G) 为 数据 报 选择 输出 的 接口 。 这 个 地 址 是 不 相关 
的 ， 因 为 jp_mforward 将 丢弃 整个 选项 。 最 后 ，ip_dooptions 把 选项 偏 移 向 前 移动 。 

图 14-13 的 第 四 行 是 ipintz 调 用 ip_mforward 之 后 的 数据 报 。 在 那里 ，LSRR 选 项 被 识 
别 ， 并 从 数据 报 首 部 中 移 走 。 得 到 的 数据 报 看 起 来 就 像 原 始 多 播 数据 报 ， 由 ip_mforward 
处 理 它 ， 把 它 作 为 多 播 数 据 报 在 网 络 B 上 转发 ， 并 被 HG 收 到 。 

用 LSRR 构 造 的 多 播 隧 道 已 经 过 时 了 。 因 为 1993 年 3 月 发 布 了 mrouted 程 序 ， 该 程序 通过 
在 IP 多 播 数据 报 的 首部 前 面 加 上 另 一 个 IP 首 部 来 构造 隧道 。 新 IP 首 部 的 协议 设置 为 4， 表明 分 
组 的 内 容 是 男 一 个 IP 分 组 。 有 关 这 个 值 的 文档 在 RFC 1700 一 一 “IP 中 的 IP” 协 议 中 。 新 版 本 
的 mrouted 程 序 为 了 同 后 兼容 ， 也 支持 LSRR 隧 道 。 


14.5.1 虚拟 接口 表 


无 论 物理 接口 还 是 隧道 接口 ， 内 核 都 为 其 在 虚拟 接口 (virtual interface) 表 中 维护 一 个 条 目 ， 
其 中 包含 了 只 有 多 播 使 用 的 信息 。 每 个 虚拟 接口 都 用 一 个 vif 结 构 表 示 ( 图 14-14)。 全 局 变量 
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viftable 是 一 个 这 种 结构 的 数组 。 数 组 的 下 标 保存 在 无 符号 短 整 数 vifi_t 变 量 中 。 


105 SEracet vil (t 


106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 


u_char 
u_char 
struct 
struct 
struct 
struct 
int 

int 

u long 
int 


a 


viftable[0] 


viftable[1] 


viftable[2] 


viftable[3] 


到 


viftable[31] 


v flags; 

v threshold; 

in addr v. lel addr; 

in addr v. rmt  addr; 

ifnet *v ifp; 

in addr *v. lcl. grps; 
v lcl, grps max; 

v icl grps.n; 

v cached, group; 

v. cached result; 


/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


ip mroute.h 


VIFF flags */ 

min ttl required to forward on vif */ 
local interface address */ 

remote address (tunnels only) */ 
pointer to interface */ 

list of local grps (phyints only) */ 
malloc'ed number of v lcl grps */ 
used number of v lcl grps */ 

last grp looked-up (phyints only) */ 
last look-up result (phyints only) */ 


ip mroute.h 


图 14-14 vif 结 构 


105-110 为 v_flags 定 义 的 唯一 的 标志 位 是 VIFF_TUNNEL。 被 置 位 时 ， 该 接口 是 一 个 到 
远程 多 播 路 由 器 的 隧道 。 没 有 置 位 时 ， 接 口 是 在 本 地 系统 上 的 一 个 物理 接口 。v_threshold 
是 我 们 在 12.9 节 描述 的 多 播 浆 值 。v_1lcl_addr 是 与 这 个 虚拟 接口 相关 的 本 地 接口 的 IP 地 址 。 
v rmt addr 是 一 个 IP 多 播 隧 道 远 端的 单 播 IP 地 址 。v_1lcl_adqar 或 者 Vv_rmt addr2jdEX, 
但 不 会 两 者 都 为 非 零 。 对 物理 接口 ，v_ifp 非 空 ， 并 指向 本 地 接口 的 ifnet 结 构 。 对 隧道 ， 
Vv_ifp 是 空 的 。 





& 


v lcl grps 


v lcl grps max 





图 14-15 














in addr() 
* uu 


E 


Ei 





ifnetí() 







viftable 数 组 
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111-116 VvV_lcl_grps 指 同一 个 IP 多 播 组 地 址 数组 ， 这 个 数组 记录 了 在 连 到 的 接口 上 的 成 
员 组 列表 。 对 隧道 来 说 ，vV_1lcl_grps 总 是 空 的 。 数 组 的 大 小 保存 在 Vv_lcl_grps_max 中 ， 
被 使 用 的 条 目 数 保存 在 v_1c1_grps_ an 中。 数组 随 着 组 成 员 关 系 表 的 增 大 而 增长 。 
v cached _ group 和 vv cached zesult 实 现 “ 一 个 条 目 ” 高 速 缓存 ， 其 中 记录 的 是 最 近 
一 次 查找 得 到 的 组 。 

图 14-15 说 明了 viftable， 它 最 多 有 32 个 (MAXVIFS) 条 目 。viftable[2] 是 正在 使 用 的 
最 后 一 个 条 目 ， 所 以 numvifs 是 3。 编 译 内 核 时 固定 了 表 的 大 小 。 图 中 还 显示 了 表 的 第 一 个 
条 目的 vif 结 构 的 几 个 成 员 。v_ifp 指 疝 一 个 ifnet 结 构 ，v_lcl_grps 指 向 in_addr 结 构 中 
的 一 个 数组 。 数 组 有 32(v_lcl_grps_max) 个 条 目 ， 其 中 只 用 了 4 个 (v_lcl_grps_n)。 

mrouted 通 过 DVMRP ADD VIF 和 DVMRP DEL VIF 合 令 维 护 viftable。 通 常 ， 当 
mrouted 开 始 运 行 时 ， 会 把 本 地 系统 上 有 多 播 能 力 的 接口 加 入 表 中 。 当 mrouted 阅 读 自 己 的 
配置 文件 ， 通 稼 是 /etc/mrouted.conf 时 ， 会 把 多 播 障 道 加 入 表 中 。 这 个 文件 中 的 命令 也 
可 能 从 虚拟 接口 表 中 删除 物理 接口 ， 或 者 改变 与 接口 有 关 的 多 播 信 息 。 

mrouted 用 DVMRP_ADD_VIF 命 令 把 ct1 结 构 ( 图 14-16) 传 给 内 核 。 它 指示 内 核 在 虚拟 接 
口 表 中 加 入 一 个 接口 项 。 


ip mroute.h 
76 struct vifctl ( 
$3 vifi t vifc vifi: /* the index of the vif to be added */ 
78 u char vifc flags; /* VIFF. flags (Figure 14.14) */ 
79 u char vifc threshold; /* min ttl required to forward on vif */ 
80 struct in, addr vife lel addr; /* local interface address */ 
81 struct in addr vifc rmt adar; /* remote address (tunnels only) */ 
m ip mroute.h 


14-16 vifct1 结 构 


78-82 vifc vifi 识 别 viftable 中 虚拟 接口 的 下 标 。 其 他 4 个 成 员 , vifc flags, 
vifc threshold, vifc lcl addr 和 vifc rmt addr, add vif 函 数 复制 到 vif 限 数 中 。 


14.5.2 add vif Zi 


图 14-17 是 add_vif 图 数 。 





m ip mroute.c 
202 static int 


203 add vif(vifcp) 
204 struct vifctl *vifcp; 


205 ( 

206 struct vif *vifp = viftable ə vifcp-»vifc. vifi; 
207 struct ifaddr *ifa; 

208 struct ifnet *ifp; 

209 struct ifreq ifr; 

210 int error, S; 

2L static struct sockaddr in sin - 
212 {sizeof (sin), AF INET); 

213 if (vifcp-»vifc vifi >= MAXVIFS) 
214 return (EINVAL); 

215 if (vifp-»v. lcl addr.s addr l= 0) 
216 return (EADDRINUSE); 


图 14-17 add vif 函数 : DVMRP_RADD_VIE 命 令 
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217 /* Find the interface with an address in AF INET family */ 
218 sin.sin, addr - vifcp-»vifc lcl addr; 
219 ifa - ifa ifwithaddr((struct sockaddr *) &sin); 
220 if (ifa == 0) 
221 return (EADDRNOTAVAIL); 
222 s = splnet(); 
223 if (vifcp-»vifc flags & VIFF TUNNEL) 
224 vifp-»v rmt, addr = vifcp-»vifc rmt addádr; 
249 else ( 
226 /* Make sure the interface supports multicast */ 
227 ifp = ifa-»ifa ifp; 
228 if ((ifp-»if flags & IFF MULTICAST) -- 0) ( 
229 splix(s); 
230 return (EOPNOTSUPP); 
231 ) 
232 /* 
233 * Enable promiscuous reception of all IP multicasts 
234 * from the interface. 
235 "y 
236 satosin(&ifr.ifr addr)-»sin family - AF INET; 
437 satosin(&ifr.ifr addr)-»sin addr.s addr = INADDR ANY; 
238 error = (*ifp-»if ioctl) (ifp, SIOCADDMULTI, (caddr t) & ifr); 
239 if (error) í 
240 splx(s); 
241 return (error); 
242 ) 
243 } 
244 vifp-»v flags = vifcp-»vifc flags; 
245 vifp-»v threshold - vifcp-»vifc threshold; 
246 vifp-»v  lcl addr = vifcp-»vifc lcl addr; 
247 vifp-»v ifp = ifa-»ifa ifp; 
248 /* Adjust numvifs up if the vifi is higher than numvifs */ 
249 if (numvifs «- vifcp-»vifc vifi) 
250 numvifs = vifcp-»vifc vifi + 1; 
251 splx(s); 
252 return (0); 
2 ip mroute.c 
图 14-17  (f&) 
1. 验证 下 标 


202-216 如 果 mrouted 指 定 的 vifc_vifi 中 的 下 标 太 大 ， 或 者 该 表 条 目 已 经 被 使 用 ， 则 
分 别 返 回 EINVAL 或 EADDRINUSE。 

2. 本 地 物理 接口 
217-221 ifa ifwithaddr 取 得 vifc lcl addr 中 的 单 播 IP 地 址 ， 并 返回 一 个 指向 相关 
ifnet 结 构 的 指针 。 这 就 标识 出 这 个 虚拟 接口 要 用 的 物理 接口 。 如 果 没 有 匹配 的 接口 ， 返 回 


EADDRNOTAVAIL, 


3. 配置 隧道 接口 
222-224 对 于 隧道 ， 它 的 远 端 地 址 被 从 vifct1 结 构 中 复制 到 接口 表 的 vi 结构 中 。 
4. 配置 物理 接口 


225-243 对 于 物理 接口 ， 链 路 级 驱动 程序 必须 支持 多 播 。SIOCADDMULTI 命 令 与 
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INRADDR_RANY 一 起 配置 接口 ， 开 始 接收 所 有 IP 多 播 数据 报 (图 12-32)， 因 为 它 是 一 个 多 播 路 由 
器 。 当 ipintr 把 到 达 数 据 报 传 给 ijp _mforward 时 ， 被 ip _mforwazrd 转 发 。 

S. 保存 多 播 信 息 
244-253 其 他 接口 信息 被 从 vifct1 结 构 复制 到 vi 结构 。 如 果 需 要 ， 更 新 numvifs， 记 
录 正 在 使 用 的 虚拟 接口 数 。 


14.5.3 del_vif 函 数 


图 14-18 显 示 的 del_vif 函 数 从 虚拟 接口 表 中 删除 表 项 。 当 mrouted 设 置 DVMRP _ 
DEL_VIEF 命 令 时 ， 调 用 该 图 数 。 

1. 验证 下 标 
257-268 如 果 传 给 del_vif 的 下 标 大 于 正在 使 用 的 最 大 下 标 ， 或 者 指向 一 个 没有 使 用 的 条 
目 ， 则 分 别 返 回 EINVAL 和 EADDRNOTAVAIL。 


-一 一 ip mroute.c 
257 static int 
258 del vif(vifip) 
259 vifi t *yilfip; 
260 ( 
261 struct vif *vifp = viftable + *vifip; 
262 struct ifnet *ifp; 
263 int Lh, 83 
264 struct ifreq ifr; 
265 if (*vifip >= numvifs) 
266 return (EINVAL); 
267 if (vifp-»v lci addr.s addr == 0) 
268 return (EADDRNOTAVAIL); 
269 S = Ssplnet(); 
270 if (!(vifp-»v flags & VIFF. TUNNEL)) ( 
211 if (vifp-»v lcl.grps) 
272 free(vifp-»v lcl grps, M MRTABLE); 
273 satosin(&ifr.ifr addr)-»sin family = AF. INET; 
274 satosin(&kifr.ifr addr)-»sin, addr.s addr = INADDR ANY; 
235 ifp = vifp-»v ifp; 
276 (*ifp-»if ioctl) (i1fp, SIOCDELMULTI,'(cCaddr t) & ifr); 
277 ) 
278 bzero((caddr t) vifp, sizeof(*vifp)); 
279 /* Adjust numvifs down */ 
280 for (i = numvifs - 1; i »- 0; i--) 
281 if (viftable[i].v lcl addr.s addr !- 0) 
282 break; 
283 numvifs = i + 1; 
284 Splx(s); 
285 return (0); 
286 ) 2 
ip mroute.c 
图 14-18 del viftK7Ák: DVMRP DEL VIF 命令 
2. 删除 接口 


269-278 对 于 物理 接口 ， 释 放 本 地 多 播 组 表 ，SIOCADDMULTI 禁 止 接收 所 有 多 播 数据 报 ， 
bzero 对 viftable 的 条 目 清 零 。. 
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3. 调整 接口 计数 
279-286 ”for 循环 从 以 前 活动 的 最 大 条 目 开 始 向 后 直到 第 一 个 条 目 为 止 ， 搜 索 出 第 一 个 活 
动 的 条 目 。 对 没有 使 用 的 条 目 ，v_lcl addr( 一 个 ijn_ addr 结 构 ) 的 成 员 s_addr 是 0。 相 应 
地 更 新 numvifs， 国 数 返 回 。 


14.6 IGMP( 续 ) 


第 13 章 侧重 于 IGMP 协 议 的 主机 部 分 ，mrouted 实 现 了 这 个 协议 的 路 由 絮 部 分 。mrouted 
必须 为 每 个 物理 接口 记录 哪个 多 播 组 有 成 员 在 连 到 的 网 络 上 。mrouted 每 120 秒 多 播 一 个 
IGMP HOST MEMBERSHIP QUERY 数 据 报 ， 并 把 IGMP HOST MEMBERSHIP 《REPORT 的 结 
果 汇 编 到 与 每 个 网 络 相 关 的 成 员 关系 数组 中 。 这 个 数组 不 是 我 们 在 第 13 章 讲 的 成 员 关 系 表 。 

mrouted 根 据 收集 到 的 信息 构造 多 播 路 由 选择 表 。 多 播 组 表 也 提供 信息 ， 用 来 抑制 向 没有 
目的 组 成 员 的 多 播 互 联网 区 进行 多 播 。 

只 为 物理 接口 维护 这 样 的 成 员 关 系数 组 。 对 其 他 多 播 路 由 器 来 说 ， 隧 道 是 点 到 点 接口 ， 
所 以 不 需要 组 成 员 关 系 信息 。 

我 们 在 图 14-14 中 看 到 ，v_ lcl grps 指 问 一 个 IP 多 播 组 数组 。mrouted 用 DVMRP _ 
ADD LGRP 和 DVMRP DEL LGRP 命 令 维 护 这 个 表 。 两 个 命令 都 带 了 一 个 lgrpct1l1 结 构 
(图 14-19)。 


ip mroute.h 
B7 struct lorplctl (1 
88 vifi t Iloc v1f1; 
89 struct in addr lgc. gaddr; 
90 ) A 
ip_mroute.h 
14-19 1grpct1 结 构 
进程 
i T a 


DVMRP_ADD_LGRP 选项 


C rip input D setsockopt 
Cien input 7 
C dpimes 73 rip ctloutput 
IGMP HOST MEMBERSHIP. REPORT 
数据 报 
add lgrp 


图 14-20 IGMP 报告 处 理 
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87-90 
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1gc_vifi 和 1gc_gaddr 标 识 { 接 口 ， 组 } 对 。 接 口 下 标 ( 无 符号 短 整 数 1gc_vifi) 


标识 一 个 虚拟 接口 ， 而 不 是 物理 接口 。 
当 收 到 一 个 IGMP HOST MEMBERSHIP _ REPORT 时 ， 调 用 图 14-20 所 示 的 国 数 。 


14.6.1 add 1grp 函 数 


mrouted 检 查 到 达 IGMP 报 告 的 源 地 址 ， 确 定 是 哪个 子 网 ， 从 而 确定 报告 是 哪个 接口 接 


ip_mroute.c 


291 static int 
292 add lgrpí(gcp) 
293 struct lgrplctl *gcp; 


294 ( 
295 
296 


297 
298 


299 
300 
301 


302 
303 
304 
305 
306 


307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 


321 
322 
323 
324 


325 
326 
327 


328 
329 


330 
331 
332 } 


struct vif *vifp; 
int 8; 


if (gcp-»1lgc vifi >= numvifs) 
return (EINVAL); 


vifp = viftable + gcp-»lgc. vifi; 
if (vifp-»v lcl addr.s addr -- || (vifp-»v flags & VIFF. TUNNEL) ) 
return (EADDRNOTAVAIL); 


/* If not enough space in existing list, allocate a larger one */ 
S = Splnet(); 
if (vifp-»v lcl grps n + 1 >= vifp-»v. lcl. grps max) ( 

int num; 

struct in, addr *ip; 


num = vifp-»v lcl grps max; 
if (num «s 0) 


num - 32; /* initial number */ 
else 

num «- num; /* double last number */ 
ip = (struct in_addr *) malloc(num * sizeof(*ip), 


M MRTABLE, M NOWAIT); 
if (ip == NULL) + 
splx(s); 
return (ENOBUFS); 


) 

bzero((caddr t) ip, num * sizeof(*ip)); /* XXX paranoid */ 

bcopy((caddr t) vifp-»v lcl. grps, (caddr. t) ip, 
vifp-»v lcl grps n * sizeof(*ip)):; 


vifp-»v lcl grps max - num; 

if (vifp-»v lcl grps) 
free(vifp-»v. lcl grps, M MRTABLE); 

vifp-»v.lcl.grps = ip; 


splx(s); 


) 
vifp-»v lcl grps[vifp-»v lcl, grps. n««] = gcp-»lgc. gaddr; 


if (gcp-»lgc. gaddr.s, addr == vifp-»v cached group) 
vifp-»v. cached result = 1; 


splixí(s); 
return (0); 


ip mroute.c 


图 14-21 add lgrp 函 数 : DVMRP_ADD_GLRP 命 令 
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收 的 。 根 据 这 个 信息 ，mrouted 为 该 接口 设置 DVMRP_ADD_LGRP 命 令 ，, 更 新 内 核 中 的 成 员 
关系 表 。 这 个 信息 也 被 送 到 多 播 路 由 选择 算法 ， 更 新 路 由 选择 表 。 图 14-21 显 示 了 add_1grp 
函数 。 

1. 验证 增加 请 求 
291-301 如 果 该 请 求 标识 了 一 个 无 效 接口 ， 就 返回 EINVAL。 如 果 没 有 使 用 该 接口 或 它 是 
一 个 隧道 ， 则 返回 EADDRNOTAVAIL， 

2. 如 果 需 要 ， 扩 展 组 数组 
302-326 如果 新 组 无 法 放 在 当前 的 组 数组 中 ， 就 分 配 一 个 新 的 数组 。 第 一 次 为 接口 调用 
add_1grp 国 数 时 ， 分 配 一 个 能 装 32 个 组 的 数组 。 

每 次 数组 被 填 满 后 ，add_1lgrp 就 分 配 一 个 两 售 于 前 面 数 组 大 小 的 新 数组 。Malloc 人 负责 
分 配 ，bzero 人 负责 清 零 ，bcopy 把 旧 数 组 中 的 内 容 复 制 到 新 数组 中 。 更 新 最 大 条 目 数 
Vv_lcl_grps_max， 释 放 旧 数组 (如 果 有 的 话 )， 把 新 数组 和 v_1lcl_grps 连 接 到 vif 条 目 。 


“偏执 狂 (paranoid) ”评论 指出 ， 无 法 保证 malloc 分 配 的 内 存 全 部 是 0， 


3. 增加 新 的 组 
327-332 新 组 被 复制 到 下 一 个 可 用 的 条 目 ， 如 果 高 速 缓存 中 已 经 存放 了 新 组 ， 就 把 高 速 组 
存 标记 为 有 效 。 

查找 高 速 缓存 中 包含 一 个 地 址 v_cached_group， 以 及 一 个 高 速 缓存 的 查找 结果 
v_cached_result。grp1lst_membez 国 数 在 搜索 成 员 关 系数 组 之 前 ， 总 是 先 查 一 下 这 个 
高 速 组 存 。 如 果 给 定 的 组 与 v_cached_group 匹 配 ， 就 返回 高 速 缓存 的 查找 结果 ， 否 则 ， 搜 
索 成 员 关 系数 组 。 


14.6.2 del lgrpňž 


如 果 在 270 秒 内 ， 没 有 收 到 该 组 任何 成 员 关 系 的 报告 ， 则 每 个 接口 的 组 信息 超时 。 
mrouted 维 护 适 当 的 定时 如 ， 并 当 信 息 超 时 后 ， 发 布 DVMRP_DEL_LGRP 命 令 。 图 14-22 显 示 
Jadel lgrp, 

1. 验证 接口 下 标 
337-347 如 果 请 求 标识 无 效 接口 ， 叫 返回 EINVAL。 如 果 该 接口 没有 使 用 或 是 一 个 隧道 ， 
则 返回 EADDRNOTAVAIL。 

2. 更 新 查找 高 速 缓存 
348-350 如 朱 要 删除 的 组 在 高 速 缓存 里 ， 就 把 查找 结果 设 成 0( 假 )。 

3. 删除 组 
351-364 如果 在 成 员 关 系 表 中 没有 找到 该 组 ， 则 在 error 中 发 布 EADDRNOTAVAIL。 for 
人 循环 搜索 与 该 接口 相关 的 成 员 关 系数 组 。 如 果 same( 是 一 个 宏 ， 用 bcmp 比 较 两 个 地 址 ) 为 真 ， 
则 清除 error， 把 组 计数 絮 加 1。bcopy 移 动 后 续 的 数组 条 目 ， 删 除 该 组 ，del_1lgrp 跳 出 该 

如 果 循 环 结束 ， 疫 有 找到 匹配 ， 则 返回 EADDRNOTAVAIL， 人 否则 返回 0。 
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337 static int (p IMIDUPAE 

338 del lgrpí(gcp) 

339 struct lgrplctl *gcp; 

340 ( 

341 struct vif *vifp; 

342 int i, error, 8; 

343 if (gcp-»1lgc vifi >= numvifs) 

344 return (EINVAL); 

345 vifp = viftable + gcp-»1lgoc, vifi; 

346 if (vifp-»v lcl addr.s addr == 0 || (vifp-»v.flags & VIFF  TUNNEL)) 

347 return (EADDRNOTAVAIL); 

348 S = Ssplnet(); 

349 if (gcp-»1gc gaddr.s addr == vifp-»v cached group) 

350 vifp-»v cached result - 0; 

351 error - EADDRNOTAVAIL; 

352 for (i = 0; i < vifp-»v lcl grps n; ++i) 

354 if (same(&gcp-»lgc gaddr, &vifp-»v lcl grps[il)) 

354 error = 0; 

355 vifp-»v. lcl.grps. n--; 

356 bcopy((caddr t) & vifp-»v lcl, grps[i + 1], 

391 (caddr.t) & vifp-»v lcl grpsl[il, 

358 (vifp-»v lcl grps n - i) * sizeof(struct in addr)); 

359 error «e D 

360 break; 

361 ) 

362 splx (s); 

363 return (error); 

364 ) : 
ip mroute.c 


图 14-22 del lgrptK ZR: DVMRP DEL LGRP 命 令 


14.6.3 grplst member Zi 


在 转发 多 播 时 ， 查 询 成 员 关 系数 组 ， 以 免 把 数据 报 发 到 没有 目的 组 成 员 的 网 络 上 。 图 14- 


23 显 示 的 grp1st_membez 畏 数 ， 搜 索 整 个 表 ， 寻 找 给 定 组 地 址 。 





368 static int 

369 grplst member(vifp, gaddr) 
370 struct vif *wvwitfp; 

371 struct in addr gaddr; 


ASTA | 

373 int i, B8; 

374 u long  addr; 

3745 mrtstat.mrts grp lookups--*; 

376 addr - gaddr.s addr; 

377 if (addr == vifp-»v. cached group) 

378 return (vifp-»v cached result); 

379 mrtstat.mrts grp misses-«-; 

380 for (i = 0; i < vifp-»v lcl grps n; ++i) 


图 14-23 grplst member fÁ% 


ip mroute.c 
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381 if (addr == vifp-»v lcl grps([i]l.s addr) ( 
382 s = splnet(); 
383 vifp-»v cached group - addr; 
384 vifp-»v cached result - 1; 
385 Splix(s); 
386 return (1); 
387 ) 
388 S - splnet(); 
389 vifp-»v. cached group = addr? 
390 vifp-»v. cached result - 0; 
391 splx(s); 
392 return (0); 
393 ) 
ip mroute.c 
图 14-23 (£X) 
1. 检查 高 速 缓存 


368-379 如 果 请 求 的 组 在 高 速 缓存 中 ， 则 返回 高 速 缓存 的 结果 ， 不 搜索 成 员 关 系数 组 。 

2. 搜索 成 员 关系 数组 
380-390 ”对 数组 进行 线性 搜索 ， 确 定 组 是 否 在 其 中 。 如 果 找 到 ， 就 更 新 高 速 缓存 以 记录 匹 
配 的 值 ， 并 返回 1， 如 果 没 有 找到 ， 就 更 新 高 速 缓存 记录 丢失 的 ， 并 返回 0。 


14.7 多 播 选 路 


正如 在 本 章 开 始 提 到 的 ， 我 们 不 给 出 mrouted 实 现 的 TRPB 算 法 ,但 给 出 一 个 有 关 该 机 
制 的 综述 ， 描 述 内 核 的 多 播 路 由 选择 表 和 多 播 路 由 选择 函数 。 图 14-24 显 示 了 一 个 我 们 用 于 解 
释 该 算法 的 示例 多 播 网 络 。 





图 14-24 多 播 网 络 示例 


图 14-24 中 ， 方 框 代 表 路 由 右 ， 椭 圆 代表 连接 到 路 由 器 的 多 播 网 络 。 例 如 ， 路 由 器 D 可 以 
在 网 络 D 和 网 络 C 上 多 播 。 路 由 此 C 可 以 向 网 络 C 多 播 ， 通 过 点 到 点 接口 向 路 由 器 A 和 B 多 播 ， 
并 可 以 通过 一 个 多 播 隧 道 向 路 由 器 E 多 播 。 

最 简单 的 路 由 选择 办 法 是 ， 从 互联 网 拓扑 中 选 出 一 个 子 网 ， 形 成 一 个 生成 树 。 如 果 每 个 
路 由 器 都 沿 着 生成 树 转发 多 播 ， 则 各 路 由 器 最 终 会 收 到 数据 报 。 图 14-25 显 示 了 示例 网 络 的 一 
个 生成 树 。 其 中 ， 网 络 A 上 的 主机 S 是 多 播 数 据 报 的 源 。 


有 关 生 成 树 的 讨论 ， 参 见 [Tanenbaum 1989] 或 [Perlman 1992], 
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图 14-25 网 络 A 的 生成 树 


这 个 生成 树 是 根据 从 各 网 络 回 到 网 络 A 上 的 源 站 的 最 短 逆 向 路 径 (reverse path) 构 造 的 。 图 
14-25 的 生成 树 中 ， 省 略 了 路 由 器 B 和 C 之 间 的 线路 。 源 站 和 路 由 器 A 之 间 的 箭头 ， 以 及 路 由 器 
B 和 C 之 间 的 箭头 ， 强 调 了 多 播 网 络 是 生成 树 的 一 部 分 。 

如 果 用 同一 生成 树 转发 来 自 网 络 C 的 数据 报 ， 为 了 在 网 络 B 上 收 到 ， 数 据 报 经 过 的 转发 路 
径 将 大 于 需要 的 长 度 。RFC 1075 提 出 的 算法 为 每 个 潜在 的 源 站 计算 了 一 个 单独 的 生成 树 ， 以 
避免 这 种 情况 。 路 由 选择 表 为 每 条 路 由 记录 了 一 个 网 络 号 和 子 网 掩 码 ， 所 以 一 条 路 由 可 以 应 
用 到 源 子 网 内 的 任意 主机 。 

因为 构造 生成 树 是 为 了 给 源 站 的 数据 报 提供 最 短 逆 向 路 径 ， 而 每 个 网 络 都 接收 所 有 多 播 
数据 报 ， 所 以 这 个 过 程 称 为 逆向 路 径 广播 (reverse path broadcasb 即 RPB。 

RPB 没 有 任何 多 播 组 成 员 信息 ， 使 许多 数据 报 被 不 必要 地 转发 到 没有 目的 组 成 员 的 网 络 
上 。 如 果 ， 除 了 计算 生成 树 外 ， 该 路 由 选择 算法 还 能 记录 哪些 网 络 是 叶子 ， 注 意 到 每 个 网 络 
上 的 组 成 员 关 系 ， 那 么 ， 连 到 叶子 网 络 的 路 由 器 就 可 以 避免 把 数据 报 转发 到 没有 目的 组 成 员 
的 网 络 上 去 。 这 称 为 截断 逆向 路 径 广播 (TRPB)，2.0 版 的 mrouted 在 IGMP 帮 助 下 记录 叶子 网 
络 上 的 成 员 关系 ， 从 而 实现 这 一 算法 。 

图 14-26 显 示 了 TRPB 算 法 的 应 用 。 多 播 来 自 网 络 C 上 的 源 站 ， 并 在 网 络 B 上 有 一 个 目的 组 
成 员 。 

我 们 用 图 14-26 说 明 Net/3 多 播 路 由 选择 表 中 使 用 的 名 词 。 在 这 个 例子 中 ， 有 阴影 的 网 络 和 





图 14-26 网 络 C 的 TRPB 路 由 选择 
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路 由 器 收 到 来 自 网 络 C 上 源 站 的 数据 报 。A 和 B 之 间 的 线路 不 属于 生成 树 ，C 与 D 之 间 没 有 连接 ， 
因为 C 和 D 直 接收 到 源 站 发 送 的 多 播 。 

在 这 个 图 中 ， 网 络 A、B、D 和 E 是 叶子 网 络 。 路 由 器 C 接 收 多 播 ， 并 通过 连 到 路 由 器 A、 
B 和 E 的 接口 将 其 转发 一 一 尽管 把 它 发 给 A 和 E 都 是 浪费 。 这 是 TRPB 算 法 的 缺点 。 

路 由 堪 C 上 与 网 络 C 相 关 的 接口 叫 作 父亲 ， 因 为 路 由 器 C 期 望 用 它 接收 来 自 网 络 C 的 多 播 。 
从 路 由 器 C 到 路 由 器 A、B 和 E 的 接口 叫 作 儿 子 接口 。 对 路 由 器 A 来 说 ， 点 到 点 接口 是 来 自 C 的 
源 分 组 的 父亲 ， 到 网 络 A 的 接口 是 儿子 。 接 口 相 对 于 数据 报 的 源 站 ， 被 标识 为 父亲 和 儿子 。 只 
在 相关 的 儿子 接口 上 转发 多 播 数 据 报 ， 不 在 父亲 接口 上 转发 多 播 。 

继续 我 们 的 例子 ， 因 为 网 络 A、D 和 E 是 叶子 网 络 ， 并 且 没 有 目的 组 成 员 ， 所 以 它们 没有 
阴影 。 在 路 由 器 处 截断 生成 树 ， 也 不 把 数据 报 转发 到 这 些 网 络 上 去 。 路 由 器 B 把 数据 报 转发 到 
网 络 B 上 ， 因 为 B 上 有 一 个 目的 组 成 员 。 为 实现 截断 算法 ， 接 收 数据 报 的 所 有 路 由 器 都 在 自己 
的 viftable 中 查询 与 每 个 虚拟 接口 相关 的 组 表 。 

对 该 多 播 路 由 选择 算法 的 最 后 一 个 改进 叫 作 逆向 路 径 多 播 (reverse path multicasting, 
RPM)。RPM 的 目的 是 修剪 (prune) 各 生成 树 ， 避 免 在 没有 目的 组 成 员 的 分 支 上 发 送 数据 报 。 在 
图 14-26 中 ，RPM 可 以 避免 路 由 器 C 同 A 和 了 发 送 数 据 报 ， 因 为 在 这 两 个 分 支 上 没有 目的 多 播 组 
的 成 员 。3.3 版 的 mxzouted 实 现 了 RPM 。 

图 14-27 是 我 们 的 示例 网 络 ， 但 这 一 次 ， 只 有 那些 RPM 算法 选 路 数据 报 能 到 达 的 路 由 器 和 
网 络 才 有 阴影 。 





图 14-27 网 络 C 的 RPM 路 由 选择 


为 了 计算 生成 树 对 应 的 路 由 表 ， 多 播 路 由 器 和 邻近 的 多 播 路 由 器 通信 ， 发 现 多 播 互 联网 
拓扑 和 多 播 组 成 员 的 位 置 。 在 Net/3 中 ， 用 DVMRP 进 行 这 种 通信 。DVMRP 作 为 IGMP 数 据 报 
传送 ， 发 给 224.0.0.4 组 ， 该 组 是 给 DVMRP 通 信保 留 的 (图 12-1)。 

在 图 12-39 中 ， 我 们 看 到 ， 多 播 路 由 器 总 是 接受 到 达 的 IGMP 分 组 ， 把 它们 传 给 
igmp _ input 和 rip input， 然后 mrouted 在 一 个 原始 IGMP 揪 口上 读 它 们 。mzrouted 把 
DVMRP 报 文 发 送 到 同一 原始 IGMP 插 口上 的 其 他 多 播 路 由 器 。 

实现 这 些 算 法 需要 的 有 关 RPB、TRPB 、RPM 以 及 DVMRP 报 文 的 其 他 细节 参见 [Deering 
和 Cheriton 1990] 和 mrouted 的 源 代码 。 

Internet 上 还 使 用 了 其 他 多 播 路 由 选择 协议 。Proteon 路 由 器 实现 了 RFC 1584 [Moy 1994] 
提出 的 MOSPF 协 议 。Cisco 从 操作 软件 的 10.2 版 开始 实现 了 PIM(Protocol Independent 
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Multicasting), [Deering et al1994] 描 述 f PIM, 


14.7.1 多 播 选 路 表 


现在 我 们 描述 Net/3 中 实现 的 多 播 路 由 选择 。 内 核 的 多 播 路 由 选择 表 是 作为 一 个 有 64 个 条 
目的 散 列 表 实 现 的 (MRTHASHIZ)。 该 表 保 存在 全 局 数组 mrttable 中 ， 和 每 个 条 目 指 向 一 个 
mrt 结 构 的 链表 ， 如 图 14-28 所 示 。 


ip_mroute.h 
120 struct mrt 4 
121 struct in_addr mrt origin; /* subnet origin of multicasts */ 
122 struct in_addr mrt originmask;  /* subnet mask for origin */ 
123 vifi t mrt parent; /* incoming vif */ 
124 vifbitmap t mrt children; /* outgoing children vifs */ 
125 vifbitmap t mrt leaves; /* subset of outgoing children vifs */ 
126 struct mrt *mrt next; /* forward link */ 
127 ki 
ip mroute.h 


图 14-28 mrt 结 构 


120-127 mrtc origin 和 mrtc originmask 标 识 表 中 的 一 个 条 目 。mrtc parent 是 
虚拟 接口 的 下 标 ， 该 虚拟 接口 上 预期 有 来 自 起 点 的 所 有 多 播 数据 报 。mrtc_children 是 一 
个 位 图 ， 标 识 外 出 的 接口 。mrtc_leaves 也 是 一 个 位 图 ， 里 面 标识 多 播 路 由 选择 树 中 也 是 
叶子 的 外 出 接口 。 当 多 条 路 由 散 列 到 同一 个 数组 条 目 时 ， 最 后 一 个 成 员 mrt_next 实 现 该 条 
目的 一 个 链表 。 
图 14-29 是 多 播 选 路 表 的 整体 结构 。 各 mrt 结 构 都 放 在 一 个 散 列 链 上 ， 该 散 列 链 与 
nethash( 图 14-31) 函 数 返回 的 值 对 应 。 
mrttable: mrt {} 


mrt {} 










mrt next 






mrt. next 











mrt next 





图 14-29 多 播 选 路 表 


内 核 维护 的 多 播 选 路 表 是 mrouted 维 护 的 多 播 选 路 表 的 一 个 子 集 ， 其 中 的 信息 足够 内 核 
支持 多 播 转发 。 发 送 内 核 表 更 新 和 DVMRP_ADD_MRT 命 令 ， 其 中 包含 图 14-30 显 示 的 mrtct1l 
结构 。 | 
95-101 mrtct1l 结 构 的 5 个 成 员 携 带 了 我 们 谈 到 的 mrouted 和 内 核 之 间 的 信息 (图 14-28)。 

多 播 选 路 表 的 键 值 是 多 播 数 据 报 的 源 IP 地 址 。nethash( 图 14-31) 实 现 该 用 于 该 表 的 散 列 
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算法 。 它 接受 源 IP 地 址 ， 并 返回 0~63 之 间 的 一 个 值 (MRTHASHSIZ 一 1)。 
- ip_mroute.h 
95 &truct mrtotl i 
96 struct in addr mrtc origin; /* subnet origin of multicasts */ 
97 struct in addr mrtc originmask; /* subnet mask for origin */ 
98 vifi t mrtc parent; /* incoming vif */ 
99 vifbitmap t mrtc children;  /* outgoing children vifs */ 
100 vifbitmap t mrtc leaves; /* subset of outgoing children vifs */ 
101 ); : 
ip mroute.h 
[14-30 ”mrtctl 结 构 
- ip_mroute.c 
398 static Td long 
399 nethash(in) 
400 struct in addr in; 
401 ( 
402 u long n; 
403 n - in netof(in); 
404 while (ln & Oxff) == 0) 
405 n >>= 8; 
406 return (MRTHASHMOD (n)); 
407 ) 
ip mroute.c 
图 14-31 nethash 结 构 
398-407 in_netof 返 回 in， 主 机 部 分 设置 为 全 0， 在 n 中 仅 留 下 发 送 主机 的 A、B 和 C 类 网 


络 。 右 移 结果 ， 直 到 低 8 位 非 零 为 止 。MRTHRSHMOD 是 


#define MRTHASHMOD(h) ((h) & (MRTHASHSIZ - 1)) 
把 低 8 位 与 63 进 行 逻辑 与 运算 ， 留 下 低 6 位 ， 这 是 0~63 之 间 的 一 个 整数 。 


用 两 个 函数 调用 (nethash 和 in netof) 计 算 散 列 值 ， 作 为 散 列 32 bit 地 址 值 太 
PAT., 


14.7.2 del mrt 


mzouted 守 护 程序 通过 DVMRP ADD MRT 和 DVMRP DEL MRT 命 令 在 内 核 的 多 播 选 路 表 
中 增加 或 删除 表 项 。 图 14-32 显 示 了 del_mrt 函 数 。 


m ip mroute.c 
451 static int 


452 del mrt(origin) 
453 struct in addr *origin; 


454 ( 

455 scruet mrt trt; HEY rt; 

456 u long hash = nethash(*origin); 

457 int S3 

458 for (prev rt = rt = mrttable[hash]; rt; prev rt = rt, rt = rt-»mrt.next) 
459 if (origin-»s addr == rt-»mrt origin.s. addr) 

460 break; 

461 if (irt) 

462 return (ESRCH); 

463 S = Splnet(); 


图 14-32 del _ mrt 国 数 : DVMRP DEL MRT 命 令 
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464 if (rt -- cached mrt) 
465 cached mrt - NULL; 
466 if (prev rt ss ft) 
467 mrttable[hash] - rt-»mrt next; 
468 else 
469 prev rt-»mrt next = rt-»mrt next; 
470 free(rt, M MRTABLE); 
471 splx(s); 
472 return (0); 
473 ) : 
ip mroute.c 
图 14-32 (fx) 
1. 找到 路 由 条 目 


451-462 for 循环 从 hash 标 识 的 条 目 开 始 ( 在 nethash 中 定义 时 初始 化 )。 如 果 没 有 找到 条 
目 ， 则 返回 ESRCH。 

2. 删除 路 由 条 目 
463-473 如果 该 条 目 在 高 速 缓存 中 ， 则 高 速 缓存 也 无 效 了 。 从 散 列 链 上 把 该 条 目 断 开 ， 并 
且 释 放 。 当 匹配 条 目 在 表 的 最 前 面 时 ， 需 要 if 语 句 处 理 这 一 特殊 情况 。 


14.7.3 add mrti&üZ 


add_mzrt 国 数 如 图 14-33 所 示 。 


一 一 ip mroute.c 
411 static int 


412 add mrt (mrtcp) 
413 struct mrtctl *mrtcp; 


414 ( 

415 BptruacL MEE "XU; 

416 u long hash; 

417 int S; 

418 if (rt = mrtfind(mrtcp-»mrto origin)) ( 

419 /* Just update the route */ 

420 s - splnet(); 

421 rt-»mrt parent = mrtcp-»mrtc. parent; 

422 VIFM COPY(mrtcp-»mrtc children, rt-»mrt children); 
423 VIFM COPY (mrtcp-»mrtc leaves, rt-»mrt, leaves); 
424 Splx(s); 

425 return (0); 

426 ) 

427 s = splnet(); 

428 rt = (struct mrt *) malloc(sizeof(*rt), M MRTABLE, M NOWAIT); 
429 if (rt == NULLE) ( 

430 splx (s); 

431 return (ENOBUFS); 

432 ) 

433 /* 

434 * insert new entry at head of hash chain 

435 */ 

436 rt-»mrt origin = mrtcp-»mrtc origin; 

437 rt-»mrt originmask - mrtcp-»mrtc originmask; 

438 rt-»mrt parent = mrtcp-»mrtc. parent; 


图 14-33 add mrt 国 数 : 处 理 DVMRP_ADD_MRT 命 令 
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439 VIFM_COPY (mrtcp->mrtc_children, rt-»mrt, children); 
440 VIFM COPY(mrtcp-»mrtc leaves, rt->mrt_leaves); 
441 /i* link into table */ 
442 hash = nethash(mrtcp-»mrtc origin); 
443 rt-»mrt next - mrttable[hash]; 
444 mrttable[hash] - rt; 
445 splx (s); 
446 return (0); 
447 ) ' 
ip mroute.c 
图 14-33 (£x) 
1. 更 新 存在 的 路 由 
411-427 如 果 请 求 的 路 由 已 经 在 路 由 表 中 ， 则 把 新 的 信息 复制 到 该 路 由 中 ，adq_mrt 返 回 。 
2. 分 配 新 路 由 


428-447 在 新 分 配 的 mbuf 中 ， 根 据 增加 请 求 传递 的 mrtct1 结 构 ， 构 造 一 个 mrt 结 构 。 从 
mrtc origin 计 算出 散 列 下 标 ， 并 把 新 路 由 插入 散 列 链 的 第 一 个 条 目 。 


14.7.4 mrtfind ži 


mrtfind 函 数 负 责 搜索 多 播 选 路 表 。 如 图 14-34 所 示 。 把 数据 报 的 源 站 地 址 传 给 mrtfingd,， 
mrtfind 返 回 一 个 指向 匹配 mrt 结 构 的 指针 ， 如 果 没 有 匹配 ， 则 返回 一 个 空 指针 。 

1. 检查 路 由 查询 高 速 缓 存 
477-488 把 给 定 的 源 IP 地 址 (orgin) 与 高 速 缓存 中 的 原始 掩 码 做 逻辑 与 运算 。 如 末 结 雪 与 
cacheqd_origin 匹 配 ， 则 返回 高 速 缓存 的 条 目 。 


; ip_mroute.c 
471 static struct mrt * 
478 mrtfind(origin) 
479 struct in addr origin; 
480 ( 
481 struct mrt *rt; 
482 ü int hash; 
483 int S; 
484 mrtstat.mrts mrt lookups-«-; 
485 if (cached mrt !- NULL && 
486 (origin.s addr & cached originmask) -- cached origin) 
487 return (cached mrt); 
488 mrtstat.mrts mrt misses--; 
489 hash - nethash(origin); 
490 for (rt = mrttable[hash]; rt; rt = rt-»mrt,.next) 
491 if ((origin.s.addr & rt-»mrt, originmask.s addr) == 
492 rt-»mrt, origin.s adar) { 
493 S = Splnet(); 
494 cached mrt - rt; 
495 cached origin = rt-»mrt, origin.s addr; 
496 cached originmask - rt-»mrt originmask.s addr; 
497 splx(s); 
498 return (rt); 
499 } 
500 return (NULL); 
504 ) ; 
ip mroute.c 


[14-34 mrtfindrKZ 
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2. 检查 散 列表 
489-501 nethash 返 回 该 路 由 条 目的 散 列 下 标 。for 循 环 搜 索 散 列 链 找 到 匹配 的 路 由 。 当 
找到 一 个 匹配 上 时， 更 新 高 速 缓存 ， 返 回 一 个 指向 该 路 由 的 指针 。 如 果 没 有 找到 匹配 ， 则 返回 
一 个 空 指针 。 


14.8 多 播 转发 : ip mforward ži 


内 核实 现 了 整个 多 播 转 发 。 我 们 在 图 12-39 中 看 到 ， 当 ip_mrouter 非 空 时 ， 也 就 是 
mrouted 在 运行 时 ，ipintr 把 到 达 数 据 报 传 给 jp mforward, 

我 们 在 图 12-40 中 看 到 ，ip_output 可 以 把 本 地 主机 产生 的 多 播 数 据 报 传 给 ip_ 
mforward， 由 ip_mforward 为 这 些 数据 报 选 路 到 除 ijp_output 选 定 的 接口 以 外 的 其 他 接 
H.E, 

与 单 播 转 发 不 同 ， 每 当 多 播 数据 报 被 转发 到 某 个 接口 上 时 ， 就 为 该 数据 报 产生 一 个 备份 。 
例如 ， 如 果 本 地 主机 是 一 个 多 播 路 由 右 ， 并 且 连 接 到 三 个 不 同 的 网 络 ， 则 系统 产生 的 多 播 数 
据 报 被 分 别 复 制 三 份 ， 在 三 个 接口 上 等 待 输出 。 另 外 ， 如 果 应 用 程序 设置 了 多 播 环 回 标志 位 ， 
或 者 任何 输出 的 接口 也 接收 它 自己 的 传送 ， 则 数据 报 也 将 被 复制 ， 等 待 输入 。 

图 14-35 显 示 了 一 个 到 达 某 个 物理 接口 的 多 播 数据 报 。 


运输 层 协 议 


接收 的 分 组 ipintr (tunnel, send) 
Ee 


丢弃 数据 报 
(图 14-39) 
vum eruca ME 
到 达 的 多 播 隧道 以 太 网 


图 14-35 到 达 某 个 物理 接口 的 多 播 数据 报 


在 图 14-35 中 ， 数 据 报到 达 的 接口 是 目的 多 播 组 的 一 个 成 员 ， 所 以 数据 报 被 传 给 运输 层 协 
议 等 待 输入 处 理 。 该 数据 报 也 被 传 给 ip_mforward， 在 这 里 它 被 复制 和 转发 到 一 个 物理 接 
口 和 一 个 隧道 上 ( 带 粗 线 的 箭头 )， 这 两 个 必须 都 不 和 接收 接口 相同 。 

图 14-36 显 示 了 一 个 到 达 某 隧道 的 多 播 数 据 报 。 

在 图 14-36 中 ， 用 带 虚 线 的 箭头 表示 与 该 障 道 的 本 地 端 有 关 的 物理 接口 ， 数 据 报 就 在 这 一 
接口 上 到 达 。 数 据 报 被 传 给 ip_mforward， 我 们 将 在 图 14-37 看 到 ， 因 为 分 组 到 达 一 个 隧道 ， 
所 以 ip_mforwazrd 返 回 一 个 非 零 值 。 这 导致 pintt 不 再 把 该 分 组 传 给 运输 层 协议 。 

ip_mforward 从 分 组 中 取出 隧道 选项 ， 查 询 多 播 选 路 表 ， 并 且 ， 在 本 例 中 ， 还 把 分 组 转 
发 到 另 一 个 隧道 以 及 到 达 的 物理 接口 上 去 ， 用 带 细 线 的 箭头 表示 。 这 是 可 行 的 ， 因 为 多 播 选 
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路 表 是 根据 虚拟 接口 ， 而 不 是 物理 接口 。 
在 图 14-36 中 ， 我 们 假定 物理 接口 是 目的 多 播 组 的 成 员 ， 所 以 ip_output 把 该 数据 报 传 
给 ip_mloopback，ip_mloopback 把 它 送 到 队列 中 等 待 ipintz 的 处 理 ( 带 粗 线 的 箭头 )。 


然后 ， 


分 组 又 被 传 给 ip_mforwarad， 并 被 这 个 国 数 丢弃 (练习 14.4)。 这 一 次 ， 


ip_mforward 返 回 0( 因 为 分 组 是 在 物理 接口 上 到 达 的 )， 所 以 ipintr 接 受 该 数据 报 ， 并 进行 
输入 处 理 。 


只 有 当 它 在 物理 接口 上 


到 达 时 ， 才 接收 的 分 组 CEunnel_send) 


Cisie DELI E in pte 


Civis sui 


丢弃 的 数据 报 
(图 14-39) 
一 一 E 
[ ipinrq: | fp mloopback Cap output > 

在 隧道 上 到 达 的 分 组 现在 在 物 

理 接口 上 排队 等 待 输入 

| 

到 达 的 多 播 隧道 以 大 网 


图 14-36 ”到达 共 个 多 播 隧道 的 多 播 数据 报 


我 们 分 三 部 分 说 明 多 播 转发 程序 : 
。 隧道 输 入 处 理 (图 14-37)， 
。 转 发 条 件 合 格 (图 14-39)， 
。 转 发 到 出 去 的 接口 上 (图 14-40)。 


516 
517 
518 
2519 
520 
521 
B22 
523 
524 
525 
526 


527 
528 
529 
530 
531 
532 
533 
534 


ip mroute.c 
int 

ip mforward(m, ifp) 

struct mbuf *m; 

struct ifnet *ifp; 

( 

struct ip *ip = mtodím, strüct ip *); 
scruct prt. *rt; 

struct vif *vifp; 

int vifi; 

u char *ipoptions; 

u long tunnel src; 


if (ip-»ip.hl < (IP. HDR LEN + TUNNEL LEN) >> 2 |l 
(ipoptions = (u_char *) (ip + 1))[1] l= IPOPT LSRR) ( 
/* Packet arrived via a physical interface. */ 
tunnel. src = 0; 
) else ( 
/* 
* Packet arrived through a tunnel. 
* A tunneled packet has a single NOP option and a 


[14-37 ip mforwardrRZ&k: 到 达 隧 道 
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535 * two-element loose-source-and-record-route (LSRR) 

536 * option immediately following the fixed-size part of 

537 * the IP header. At this point in processing, the IP 

538 * header should contain the following IP addresses: 

539 * 

540 * original source - in the source address field 
541 * destination group - in the destination address field 
542 * remote tunnel end-point - in the first element of LSRR 
543 * one of this host's addrs - in the second element of LSRR 
544 * 

545 * NOTE: RFC-1075 would have the original source and 

546 * remote tunnel end-point addresses swapped. However, 

547 * that could cause delivery of ICMP error messages to 

548 * innocent applications on intermediate routing 

549 * hosts! Therefore, we hereby change the spec. 

550 u^ i 

551 /* Verify that the tunnel options are well-formed.  */ 

552 if (ipoptions[0] != IPOPT NOP ||! 

553 ipoptions[2] !- 11 11 /* LSRR option length e d 

554 ipoptions[3] Y= 12 |l /* LSRR address pointer */ 

555 (tunnel src = *(u long *) (&ipoptions[4])) == 0) ( 

556 mrtstat.mrts bad tunnel-«-; 

557 return (1); 

558 ) 

559 /* Delete the tunnel options from the packet. */ 

560 ovbcopy((caddr t) (ipoptions + TUNNEL LEN), (caddr t) ipoptions, 
561 (unsigned) (m-»m len - (IP HDR LEN + TUNNEL, LEN))); 
562 m-»m len -- TUNNEL, LEN; 

563 ip-»ip len -- TUNNEL. LEN; 

564 ip-»ip.hl -= TUNNEL LEN >> 2; 

565 ) 


ip mroute.c 


图 14-37 (£x) 


516-526 ip_mforward 的 两 个 参数 是 : 一 个 指向 包含 该 数据 报 的 mbuf 链 的 指针 ， 鸭 
是 指 癌 接收 接口 ifnet 结 构 的 指针 。 

1. 到 达 物 理 接口 
527-530 为 了 区 分 在 同一 物理 接口 上 到 达 的 多 播 数 据 报 是 否 经 过 隧道 ， 要 检查 IP 首 部 的 特 
征 LSRR 选 项 。 如 果 首 部 太 小 ， 无 法 包含 该 选项 ， 或 者 该 选项 不 是 以 一 个 后 面 跟着 一 个 LSRR 
选项 的 NOP 开 始 ， 就 假定 该 数据 报 是 在 一 个 物理 接口 上 到 达 的 ， 并 把 tunnel_src 设 为 0。 

2. 到 达 隧 道 
531-558 如 果 数 据 报 看 起 来 像 是 从 隧道 上 到 达 的 ， 就 检查 选项 ， 验 证 格式 是 否 正 确 。 如 琳 选 
项 的 格式 不 符合 多 播 隧 道 ， 则 ip_mforward 返 回 !， 指 示 应 该 把 该 数据 报 丢 弃 。 图 14-38 是 隧 
道 选项 的 结构 。 


在 图 14-38 中 ， 我 们 假定 数据 报 里 没有 其 他 选项 ， 但 不 是 必须 这 样 的 。 任 何其 他 
se 因为 隘 道 开始 问 的 多 播 路 由 器 总 是 把 LSRR 
选项 插 在 所 有 其 他 选项 之 前 。 


3. 删除 隧道 选项 
559-565 如 果 选 项 正确 ， 就 把 后 面 的 选项 和 数据 向 前 移动 ， 调 整 mbuf 首 部 的 m_1len 和 JIP 首 
部 的 ijp_len 和 ip_h1l1 的 值 ， 然 后 删除 隧道 选项 (图 14-38)。 


说 ， 这 意味 着 在 隧道 上 到 达 的 一 个 数据 报 被 传 给 
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11 (length) 
12(offset) 





20 字 节 Ft 
图 14-38 多 播 隧道 选 项 
ip_mforward 经 常 把 tunnel_source 作 为 返回 值 。 当 数据 报 从 隧道 上 到 达 时 ， 
只 能 是 非 零 的 。 当 ip_mforward 返 回 非 零 值 时 ， 它 的 调用 方 就 丢弃 该 数据 报 。 对 ipintz 来 


ip _mforward， 并 且 被 ipintr 技 弃 。 转 发 


程序 取出 隧道 信息 ， 复 制 数据 报 ， 用 ip_output 将 其 发 送出 去 ， 如果 接口 是 目的 多 播 组 的 成 
员 ， 则 ip_output 调 用 ip mloopback, 

ip_mforward 的 下 一 部 分 显示 在 图 14-39 中 ， 在 这 部 分 程序 中 ， 如 果 数 据 报 不 符合 转发 
的 条 件 ， 就 丢弃 它 。 


566 
567 
568 
569 
570 
571 
52 


573 
574 
545 
576 
571 
578 
579 
580 
581 
582 
583 
584 
585 
586 
587 
588 
589 
590 
591 
592 


ip_mroute.c 
/ * 
* Don't forward a packet with time-to-live of zero or one, 
* or a packet destined to a local-only group. 
"T 
if [ip*»i1p ttl «se 1 [|i 
ntohl(ip-»ip dst.s addr) <= INADDR, MAX LOCAL, GROUP) 
return ((int) tunnel. src); 


/* 
* Don't forward if we don't have a route for the packet's origin. 
ui i 
if (!(rt = mrtfind(ip-»ip src))) ( 
mrtstat.mrts no route-«-; 
return ((int) tunnel. src); 


) 


/* 
* Don't forward if it didn't arrive from the parent vif for its origin. 
"y 
vifi - rt-»mrt parent; 
if (tunnel sre == 0) + 
if ((viftable[vifi].v flags & VIFF TUNNEL) || 
viftable[vifi].v ifp !- ifp) 
return ((int) tunnel. src); 
) else ( 
if (!(viftable[vifi].v flags & VIFF TUNNEL) |! 
viftable[vifi].v rmt addr.s addr !- tunnel, src) 
return ((int) tunnel. src); 


ip mroute.c 
图 14-39 ip_mforward 函 数 : 转发 可 行 性 检查 


这 个 值 
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4. 超时 的 TTL 或 本 地 多 播 

566-572 如果 ip_tt1l 是 0 或 1， 那 么 数据 报 已 经 到 了 生存 期 的 最 后 ， 不 再 转发 它 。 如 果 目 
的 组 小 于 或 等 于 INADDR MAX LOCAL GROUP( 几 个 224.0.0.x 组 ， 图 12-1)， 则 不 允许 数据 报 
离开 本 地 网 络 ， 也 不 转发 它 。 在 两 种 情况 下 ， 都 把 cunnel_src 返 回 给 调用 方 。 


3.3 股 的 mrouted 支 持 对 某 些 目的 多 播 组 的 管理 辖 域 。 可 把 接口 配置 成 丢弃 所 有 叶 
址 到 这 些 组 的 数据 报 ， 与 224.0.0.x 组 的 自动 辖 域 类 似 ， 


5. 没有 路 由 可 用 
573-579 如 果 mrtfind 无 法 根据 数据 报 中 的 源 地 址 找到 一 条 路 由 ， 则 函数 返回 。 没 有 路 由 ， 
多 播 路 由 器 无 法 确定 把 数据 报 转发 到 哪个 接口 上 去 。 这 种 情况 可 能 发 生 在 ， 比 如 ， 多 播 数 据 
报 在 mrouted 更 新 多 播 选 路 表 之 前 到 达 。 

6. 在 没有 想到 的 接口 上 到 达 
580-592 如果 数据 报到 达 某 个 物理 接口 ， 但 系统 本 来 预想 它 应 该 到 达 某 个 隧道 或 其 他 物理 
接口 ， 则 ip_mforwazrad 返 回 ， 如 果 数 据 报到 达 某 个 隧道 ， 但 系统 本 来 预想 它 应 该 在 某 个 物 
理 接 口 或 其 他 隧道 上 到 达 ， 则 ijp_mforward 也 返回 。 产 生 这 些 情况 的 原因 是 ， 当 组 成 员 关 
系 或 网 络 的 物理 拓扑 发 生变 化 后 ， 正 在 更 新 选 路 表 时 ， 数 据 报 到 达 。 

ip_mforward 的 最 后 一 部 分 (图 14-40) 把 该 数据 报 在 多 播 路 由 条 目 所 指定 的 每 个 输出 接 
口上 发 送 。 


ip mroute.c 
593 /* 
594 * For each vif, decide if a copy of the packet should be forwarded. 
595 * Forward if: 
596 * - the ttl exceeds the vif's threshold AND 
597 * - the vif is a child in the origin's route AND 
598 * = ( the vif is not a leaf in the origin's route OR 
599 * the destination group has members on the vif } 
600 * 
601 * (This might be speeded up with some sort of cache -- someday.) 
602 *7 
603 for (vifp = viftable, vifi = 0; vifi < numvifs; vifp««, vifi++) ( 
604 if (ip-»ip ttl » vifp-»v threshold && 
605 VIFM ISSET(vifi, rt-»mrt, children) && 
606 (!IVIFM ISSET(vifi, rt-»mrt leaves) || 
6Q7 qrplst member(vifp, ip-»ip dst))) ( 
608 if (vifp-»v flags & VIFF TUNNEL) 
6^9 tunnel, send(m, vifp); 
610 else 
611 phyint, send(m, vifp); 
612 ) 
613 } 
614 return ((int) tunnel. src); 
615 ] : 
ip mroute.c 


图 14-40 ip mforwardtRZk: 转发 


593-615 对 viftable 中 的 每 个 接口 ， 如 果 以 下 条 件 满足 ， 则 在 该 接口 上 发 送 数 据 报 : 
“数据 报 的 TIL 大 于 接口 的 多 播 国 值 ， 
“接口 是 该 路 由 的 子 接口 ; 
“接口 没有 和 共 个 叶子 网 络 相 连 。 
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如 果 该 接口 是 一 个 叶子 ， 那 么 只 有 当 网 络 上 有 目的 多 播 组 成 员 时 (也 就 是 说 ， 
grplst_member 返 回 一 个 非 零 值 )， 才 输出 该 数据 报 。 
tunnel_send 在 隧道 接口 上 转发 该 数据 报 ， 用 phyint_send 在 物理 接口 上 转发 。 


14.8.1 phyint send 函 数 


为 在 物理 接口 上 发 送 多 播 数 据 报 ，phyint _send( 图 14-41) 在 它 传 给 ijp_output 的 
ip_moptions 结 构 中 ， 明 确 指定 了 输出 接口 。 


ip mroute.c 
616 static void 
617 phyint send(m, vifp) 
618 struct mbuf *m; 
619 struct vif *vifp; 
620 ( 
621 struct ip *ip = mtod(m, struct ip *); 
622 struct mbuf *mb copy; 
623 struct ip moptions *imo; 
624 int error; 
625 struct ip moptions simo; 
626 mb copy = m copy(m, 0, M COPYALL) ; 
627 if (mb copy -- NULL) 
628 return; 
629 imo - &simo; 
630 imo-»imo multicast ifp = vifp-»v ifp; 
631 imo-»imo multicast ttl = ip-»ip ttl = 1; 
632 imo-»imo multicast loop = 1; 
633 error = ip output (mb copy, NULL, NULL, IP FORWARDING, imo); 
634 ) ; 
ip mroute.c 


图 14-41 phyint sendr&Z 


616-634 m_copy 复 制 输出 的 数据 报 。ip_moptions 结 构 设 置 为 强制 在 选 定 的 接口 上 传送 
该 数据 报 。 递 减 TTL， 人 允许 多 播 环 回 。 

数据 报 被 传 给 ip_output。IP_FORWARDING 标 志 位 避免 产生 无 限 回 路 ， 使 
ip_output 再 次 调用 ip_mforward。 


m_next 





20 字 市 
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14.8.2 tunnel send 函数 


为 了 在 隧道 上 发 送 数据 报 ，tunne1l_send( 图 14-43) 必 须 构造 合适 的 隧道 选项 ， 并 将 其 
插 到 输出 数据 报 的 首部 。 图 14-42 显 示 了 tunnel_send 如 何 为 隧道 准备 分 组 。 


- - ip_mroute.c 
635 static void 
636 tunnel send(m, vifp) 
637 struct mbuf *m; 
638 struct vif *vifp; 
639 ( 
640 struct ip *ip - mtod(m, struct ip *); 
641 struct mbuf *mb copy, *mb opts; 
642 struct ip *ip copy; 
643 int error; 
644 u char *cp; 
645 p 
646 * Make sure that adding the tunnel options won't exceed the 
647 * maximum allowed number of option bytes. 
648 */ 
649 if (ip-»ip hl > (60 = TUNNEL LEN) »» 2) ( 
650 mrtstat.mrts cant tunnel-«-; 
651 return; 
652 ) 
653 I 
654 * Get a private copy of the IP header so that changes to some 
655 * of the IP fields don't damage the original header, which is 
656 * examined later in ip input.c. 
657 x à 
658 mb copy = m copy(m, IP HDR, LEN, M COPYALL); 
659 if (mb copy -- NULL) 
660 return; 
661 MGETHDR (mb opts, M DONTWAIT, MT HEADER); 
662 if (mb.opts ss NULL) ( 
663 m freem(mb copy); 
664 return; 
665 ) 
666 gp?" 
667 * Make mb opts be the new head of the packet chain. 
668 * Any options of the packet were left in the old packet chain head 
669 "/ i 
670 mb_opts->m_next = mb_copy; 
671 mb_opts->m_len = IP_HDR_LEN + TUNNEL_LEN; 
672 mb opts-»m data += MSIZE - mb opts-»m len; i 
ip mroute.c 


图 14-43 tunnel sendtKZk: 验证 和 分 配 新 首部 

1. 隧道 选项 合适 吗 
635-652 如果 IP 首 部 内 没有 隧道 选项 的 空间 ，tunnel_send 立 即 返 回 ， 不 再 在 隧道 上 转 
发 该 数据 报 。 可 能 在 其 他 接口 上 转发 。 

2. 复制 数据 报 ， 为 新 首部 和 隧道 选项 分 配 mbuf 
653-672 在 调用 m_copy 时 ， 复制 的 开始 偏 移 是 20(IP_HDR_LEN)。 产 生 的 mbuf 链 中 包含 
了 数据 报 的 选项 和 数据 报 ， 但 没有 IP 首 部 。mb_opts 指 向 MGETHDR 分 配 的 一 个 新 的 数据 报 首 
部 ， 这 个 新 的 数据 报 首部 被 放 在 mb_copy 的 前 面 。 然 后 调整 m_len 和 m_data 的 值 ， 以 容纳 
IP 首 部 和 隧道 选项 。 
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tunnel_send 的 第 二 部 分 ， 如 图 14-44 所 示 ， 修 改 输出 分 组 的 首部 ， 并 发 送 该 分 组 。 


- ip_mroute.c 
673 lp.copy = mtod{mb_opts, struct ip *); 
674 p 
675 * Copy the base ip header to the new head mbuf. 
676 a d 
677 *ip copy = *ip; 
678 ip copy-»ip ttl--; 
679 ip copy-»ip dst = vifp-»v. rmt, addr; /* remote tunnel end-point */ 
680 p 
681 * Adjust the ip header length to account for the tunnel options. 
682 sy 
683 ip_copy->ip_hl += TUNNEL_LEN >> 2; 
684 ip_copy->ip_len += TUNNEL_LEN; 
685 "in 
686 * Add the NOP and LSRR after the base ip header 
687 xy 
688 CD = (uchar *) {iD -CODY + 1); 
689 *cp«-«- = IPOPT NOP; 
690 *CD++ = IPOPT LSRR; 
691 tenre = lili; /* LSRR option length */ 
692 *Cp++ = 8; /* LSSR pointer to second element */ 
693 *(u long *) cp = vifp-»v lcl.addr.s addr; /* local tunnel end-point */ 
694 Cp +a 4; 
695 *(u long *) cp = ip-»ip dst.s addr; /* destination group */ 
696 error - ip output(mb opts, NULL, NULL, IP FORWARDING, NULL); 
697 } ; 

ip mroute.c 


14-44 tunnel _send 国 数 : 构造 首部 和 发 送 


3. 修改 IP 首 部 
673-679 ”从 原始 mbuf 链 中 把 原始 IP 首部 复制 到 新 分 配 的 mbuf 首 部 中 。 减 少 该 首部 的 TTIL， 
把 目的 地 址 改 成 隧道 男 一 端的 接口 地 址 。 

4. 构造 隧道 选项 
680-664 ”调整 jp_hl 和 ip_len 的 值 以 容纳 隧道 选项 。 隧 道 选 项 紧 跟 在 IP 首部 的 后 面 : 一 
个 NOP， 后 面 是 LSRR 码 ，LSRR 选 项 的 长 度 (11 字 节 )， 以 及 一 个 指向 选项 第 二 个 地 址 的 指针 (8 
字 节 )。 源 路 由 包括 了 本 地 隧道 端点 和 后 面 的 目的 多 播 组 地 址 (图 14-13)。 

S. 发 送 经 过 隧道 处 理 的 数据 报 
665-697 现在 ， 这 个 数据 报 看 起 来 像 一 个 有 LSRR 选 项 的 单 播 数据 报 ， 因 为 它 的 目的 地 址 十 
隧道 另 一 端的 单 播 地 址 。ip_output 发 送 该 数据 报 。 当 数据 报到 达 隧 道 的 另 一 病 时 ， 隧 直选 
项 被 剥离 ， 另 一 端 可 能 会 通过 其 他 隧道 将 数据 报 继续 转发 。 


14.9 清理 : ip mrouter donerfZi 


当 mrouted 结 束 时 ， 它 发 布 DVMRP _ DONE 命令 ，ip_mrouter_done 国 数 (图 14-45) 处 理 
这 个 命令 。 
161-186 这 个 函数 在 splnet 上 和 运行， 避免 与 多 播 转发 代码 的 任何 交互 。 对 每 个 物理 多 播 
接口 ， 释 放 本 地 组 表 ， 并 发 布 SIOCDELMULTI 命 令 ， 阻 止 接收 多 播 数 据 报 (练习 14.3) 。 
bzero 清 零 整个 viftable 数 组 ， 并 把 numvifs 设 置 成 0。 
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187-198 释放 多 播 选 路 表 中 的 所 有 活动 条 目 ，bzero 清 零 整个 表 ， 清 零 缓 在 ， 置 位 
ip mrouter, 
多 播 选 路 表 中 的 每 个 条 目 都 可 能 是 条 目 链 表 的 第 一 个 。 这 上段 代码 只 释放 表 的 第 
一 个 条 目 ， 引 起 内 存 泄漏 。 


- ip_mroute.c 
161 int 
162 ip mrouter. done() 
163 4 
164 vifi t vifi; 
165 int ij 
166 struct ifnet *ifp; 
167 int S; 
168 struct ifreq ifr; 
169 S = splnet(); 
170 /* 
LIT * For each phyint in use, free its local group list and 
172 * disable promiscuous reception of all IP multicasts. 
173 wf 
174 tor (vifl s 0; vifi < numvifÍs; vifi«4) { 
175 if (viftable[vifi].v lcl. addr.s addr !- 0 && 
176 ! (viftable[vifi].v flags & VIFF TUNNEL)) ( 
177 if (viftable[vifi].v. lcl. grps) 
178 free(viftable[vifi].v lcl grps, M MRTABLE); 
179 satosin(&ifr.ifr addr)-»sin family = AF INET; 
180 satosin(&ifr.ifr  addr)-»sin addr.s addr = INADDR, ANY; 
181 ifp = viftable[vifi].v ifp; 
182 (*ifp-»if.ioctl) (ifp, SIOCDELMULTI, (caddr.t) & ifr); 
183 ) 
184 ) 
185 bzero((caddr t) viftable, sizeof(viftable)); 
186 numvifs - 0; 
187 /* 
188 * Free any multicast route entries. 
189 *y 
190 for (i = 0; i < MRTHASHSIZ; i++) 
191 if (mrttable[i]) 
192 free(mrttable[i], M MRTABLE); 
193 bzero((caddr. t) mrttable, sizeof(mrttable)); 
194 cached mrt - NULL; 
195 ip mrouter - NULL; 
196 splx (s); 
197 return (0); 
198 } : 
ip mroute.c 


图 14-45 ip mrouter done 国 数 : DVMRP_DONE 命 令 


14.10 ”小结 


本 章 我 们 描述 了 网 际 多 播 的 一 般 概念 和 支持 它 的 Net/3 内 核 中 心 专用 函数 。 我 们 没有 讨论 
mrouted 的 实现 ， 有 兴趣 的 读者 可 以 得 到 产 代 码 。 

我 们 描述 了 虚拟 接口 表 ， 讨 论 了 物理 接口 和 隧道 之 间 的 区 别 ， 以 及 Net3 中 用 于 实现 隧道 
的 LSRR 选 项 。 

我 们 说 明了 RPB 、TRPB 和 RPM 算法 ， 描 述 了 根据 TRPB 转 发 多 播 数 据 报 的 内 核 表 ， 还 讨 
论 了 父 网 络 和 叶子 网 络 。 
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14.1 在 图 14-25 中 ， 需 要 多 少 多 播 路 由 ? 

14.2 为 什么 splnet 和 splx 保 护 对 图 14-23 中 组 成 员 关系 高 速 缓存 的 更 新 ? 

14.3 当 某 个 接口 用 IP_RADD_MEMBERSHIP 选 项 明确 加 入 一 个 多 播 组 后 ， 如 果 回 它 发 布 
SIOCDELMULTI ,会 发 生 什么 ? 

14.4 当 某 个 上 隧道 上 到 达 一 个 数据 报 ， 并 被 jp_mforward 接 收 后 ， 可 能 会 在 转发 到 某 
个 物理 接口 时 ， 被 ljp_output 环 回 。 为 什么 当 环 回 分 组 到 达 该 物理 接口 时 ， 
ip mforward 会 丢弃 它 呢 ? 

14.5 重新 设计 组 地 址 高 速 缓存 ， 提 高 它 的 效率 。 
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15.4 引言 


本 书 共有 三 章 介 绍 Net/3 的 插口 层 代 码 ， 本 章 是 第 一 章 。 插 口 概念 最 早出 现 于 1983 年 的 
4.2BSD 版 本 中 ， 它 的 主要 目的 是 提供 一 个 统一 的 访问 网 络 和 进程 间 通 信 协 议 的 接口 。 这 里 讨 
论 的 Net/3 版 基于 4.3BSD Reno 版 ,该 版 本 与 大 多 数 Unix 供 应 商 使 用 的 早期 的 4.2 版 有 细小 的 
差别 。 

如 1.7 节 所 介绍 的 ， 插 口 层 的 主要 功能 是 将 进程 发 送 的 与 协议 有 关 的 请 求 映射 到 产生 插口 
时 指定 的 与 协议 有 关 的 实现 。 

为 了 允许 标准 的 Unix IO 系统 调用 (如 zead 和 write) 也 能 操作 网 络 连接 ， 在 BSD 版 本 
中 将 文件 系统 和 网 络 功能 集成 在 系统 调用 级 。 与 通过 描述 符 访问 打开 的 文件 一 样 ， 进 程 也 
是 通过 描述 符 ( 一 个 小 整数 ) 来 访问 插口 上 的 网 络 连接 。 这 个 特点 使 得 标准 的 文件 系统 调用 如 
read 和 write， 以 及 与 网 络 有 关 的 系统 调用 如 sendmsg 和 recvmsg， 都 能 通过 搁 述 符 来 处 
理 插口 。 

我 们 的 重点 是 插口 及 相关 的 系统 调用 的 实现 , 而 不 是 讨论 如 何 使 用 插口 层 来 实现 网 络 应 用 。 
关于 进程 级 的 插口 接口 和 如 何 编 写 网 络 应 用 的 详细 讨论 ， 请 参考 [Stevens 1990] 和 [Rago 1990], 

图 15-1 说 明了 进程 中 的 插口 接口 与 内 核 中 的 协议 实现 之 间 的 层次 关系 。 


应 用 程序 


插口 系统 调用 
进程 


ae -一 一 一 一 一 一 一 一 一 一 一 一 一 一 -r = «e — m e o we we ma OO o 


内 核 
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splnet 处 理 


插口 包含 很 多 对 splnet 和 sp1lx 的 成 对 调用 。 正 如 1.12 节 中 介绍 的 ， 这 些 调用 保护 访问 
在 插口 层 和 协议 处 理 层 间 共 享 的 数据 结构 的 代码 。 如 果 不 使 用 splnet ， 初 始 化 协议 处 理 和 改 
变 共享 的 数据 结构 的 软件 中 断 将 使 得 插口 层 代 码 恢 复 执行 时 出 现 混乱 。 

我 们 假定 读者 理解 了 这 些 调用 ， 因 而 在 以 后 讨论 中 一 般 不 再 特别 说 明 它 们 。 
15.2 代码 介绍 


本 章 讨论 涉及 的 三 个 文件 在 图 15-2 中 列 出 。 


sys/socketvar.h socket 结 构 定 义 


kern/uipc syscalls.c 系统 调用 实现 
kern/uipc socket.c dés H ES ER 


图 15-2 本 章 讨 论 涉 及 的 源 文件 










全 局 变量 
本 章 讨论 涉及 的 两 个 全 局 变量 如 图 15-3 所 示 。 


socketps | struct fileops | IO 系统 调用 的 socket 实 现 
sysent struct sysent[] | 系统 调用 入 口 数 组 


图 15-3 本 章 介绍 的 全 局 变量 





15.3 socket 结构 


插口 代表 一 条 通信 链 路 的 一 端 ， 存 储 或 指向 与 链 路 有 关 的 所 有 信息 。 这 些 信息 包括 : 使 
用 的 协议 、 协 议 的 状态 信息 (包括 源 和 目的 地 址 )、 到 达 的 连接 队列 、 数 据 缓 在 和 可 选 标志 。 
15-5 中 给 出 了 插口 和 与 插口 相关 的 缓存 的 定义 。 
41-42 so_type 由 产生 插口 的 进程 来 指定 ， 它 指明 插口 和 相关 协议 支持 的 通信 语义 。 
so_type 的 值 等 于 图 7-8 所 示 的 pr_type。 对 于 UDP，so_type 等 于 SOCK_DGRAM， 而 对 于 
TCP, so type 则 等 于 SOCK_ STREAM, 
43 so_options 是 一 组 改变 插口 行为 的 标志 。 图 15-4 列 出 了 这 些 标志 。 

通过 getsockopt 和 setsockopt 系 统 调 用 ， 进 程 能 修改 除 SO_ACCEPTCONN 

外 的 所 有 插口 选项 。 当 在 桂 口 上 发 送 listen 系 统 调用 时 ，SO ACCEPTCONN 被 内 核 

设置 。 
44 ”so_linger 等 于 当 关 闭 一 条 连接 时 插口 继续 发 送 数 据 的 时 间 间 隔 ( 单 位 为 一 个 时 钟 滴 舍 ， 
2:8,15.157), 
45 so_state 表 示 揪 口 的 内 部 状态 和 一 些 其 他 的 特点 。 图 15-6 列 出 了 so_state 可 能 引 
取 值 。 
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SO ACCEPTCONN 插口 接受 进入 的 连接 
SO BROADCAST 插口 能 够 发 送 广播 报 文 
SO_DEBUG 插口 记录 排 错 信息 

SO DONTROUTE 输出 操作 旁 路 选 路 表 


SO KEEPALIVE 插口 查询 空间 的 连接 

SO OOBINLINE 插口 将 带 外 数据 同 正 常数 据 存放 在 一 起 

SO_ REUSEADDR 插口 能 重新 使 用 一 个 本 地 地 址 

SO REUSEPORT 插口 能 重新 使 用 一 个 本 地 地 址 和 端口 

SO USELOOPBACK 仅 针对 选 路 域 插口 ， 发 送 进程 收 到 它 自 己 的 选 路 请 求 





图 15-4 so_options 的 值 


socketvar.h 
41 struct socket { 
42 short So type; /* generic type, Figure 7.8 */ 
43 short So, options; /* from socket call, Figure 15.5 */ 
44 short so linger; /* time to linger while closing */ 
45 short so. state; /* internal state flags, Figure 15.6 */ 
46 caddr t so. pcb; /* protocol control block */ 
47 struct protosw *so proto; /* protocol handle */ 
AB y* 
49 * Variables for connection queueing. 
50 * Socket where accepts occur is so head in all subsidiary sockets. 
51 * If so head is 0, socket is not related to an accept. 
52 * For head socket so q0 queues partially completed connections, 
53 * while so q is a queue of connections ready to be accepted. 
54 * If a connection is aborted and it has so head set, then 
55 * it has to be pulled out of either so qO0 or so q. 
56 * We allow connections to queue up based on current queue lengths 
57 * and limit on number of queued connections for this socket. 
58 27 
59 struct socket *so head; /* back pointer to accept socket */ 
60 struct socket *so q0; /* queue of partial connections */ 
61 struct socket *so q; /* queue of incoming connections */ 
62 short so q0len; /* partials on so qO */ 
63 short SO. qlen; /* number of connections on so q */ 
64 short so qlimit; /* max number queued connections */ 
65 short So, timeo; /* connection timeout */ 
66 u short so, error; /* error affecting connection */ 
67 pid t SO. pgid; /* pgid for signals */ 
68 u long so oobmark; /* chars to oob mark */ 
69 J* 
70 * Variables for socket buffering. 
TL wy 
72 struct sockbuf { 
73 u long sb cc; /* actual chars in buffer */ 
74 u long sb hiwat; /* max actual char count */ 
75 u long sb mbcnt; /* chars of mbufs used */ 
76 u long sb mbmax; /* max chars of mbufs to use */ 
71 long sb lowat; /* low water mark */ 
78 struct mbuf *sb mb; /* the mbuf chain */ 
79 struct selinfo sb sel; /* process selecting read/write */ 
80 short sb flags; /* Figure 16.5 */ 
81 short sb timeo; /* timeout for réad/write */ 
82 ) so.rcv, so snd; 
83 caddr t so.tpcb; /* Wisc. protocol control block XXX */ 


` 图 15-5 struct socket 定义 
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84 void (*so upcall) (struct socket * so, caddr t arg, int waitf); 
85 caddr t so upcallarg; /* Arg for above */ 
86 ) 
socketvar.h 
图 15-5 (2x) 


SS ASYNC fi F1 oz 1 A SUO SEE UE B t 2 38 ART 
SS NBIO 插口 操作 不 能 阻塞 进程 


SS CANTRCVMORE 插口 不 能 再 从 对 方 接收 数据 
SS CANTSENDMORE 插口 不 能 再 发 送 数据 给 对 方 
SS ISCONFIRMING 插口 正在 协商 一 个 连接 请 求 


SS ISCONNECTED 插口 被 连接 到 外 部 插口 

SS ISCONNECTING 插口 正在 连接 一 个 外 部 插口 

SS ISDISCONNECTING 插口 正在 同 对 方 断 连 

SS NOFDREF 插口 没有 同 任何 描述 符 相 连 

SS PRIV 插口 由 拥有 超级 用 户 权限 的 进程 所 创建 

SS RCVATMARK 在 最 近 的 带 外 数据 到 达 之 前 ， 插 口 已 处 理 完 所 有 收 到 的 数据 





图 15-6 so _state 的 值 


从 图 15-6 的 第 二 列 中 可 以 看 出 ， 进 程 可 以 通过 fcnt1 和 ioct1 系 统 调用 直接 修改 
SS_ASYNC 和 SS_NBIO。 对 于 其 他 的 标志 ， 进 程 只 能 在 系统 调用 的 执行 过 程 中 间接 修改 。 例 
如 ， 如 果 进 程 调 用 connect， 当 连接 被 建立 时 ，SS_ISCONNECTED 标 志 就 会 被 内 核 设 置 。 


SS_NBIO 和 SS ASYNC 标 志 


在 默认 情况 下 ， 进 程 在 发 出 I/O 请 求 后 会 等 待 资源 。 例 如 ， 对 一 个 插口 发 送 read 系 统 调 
用 ， 如 果 当 前 没有 来 自 网 络 的 数据 ， 则 read 系 统 调用 就 会 被 阻塞 。 同样， 当 一 个 进程 调用 
wzite 系 统 调 用 时 ， 如 果 内 核 中 没有 缓存 来 存储 发 送 的 数据 ， 则 内 核 将 阻塞 进程 。 如 果 设 置 
了 SS_NBIO， 在 对 插口 执行 IO 操作 且 请 求 的 资源 不 能 得 到 时 ， 内 核 并 不 阻塞 进程 ， 而 是 返回 
EWOULDBLOCK, 

如 果 设 置 了 SS_ASYNC， 当 因为 下 列 情 况 之 一 而 使 插口 状态 发 生变 化 时 ， 内 核发 送 
SIGIO 信 号 给 so_pgid 标 识 的 进程 或 进程 组 : 

。 连接 请 求 已 完成 ， 

。 断 连 请 求 已 被 启动 ， 

。 断 连 请 求 已 完成 ， 

。 连接 的 一 个 通道 已 被 关闭 

。 插口 上 有 数据 到 达 ， 

。 数据 已 被 发 送 ( 即 ， 输 出 缓存 中 有 闲置 空间 )， 

。 UDP 或 TCP 揪 口上 出 现 了 一 个 异步 差错 。 

46 So_pcb 指 向 协议 控制 块 ， 协 议 控 制 块 包含 与 协议 有 关 的 状态 信息 和 插口 参数 。 每 一 种 协 
议 都 定义 了 自己 的 控制 块 结构 ， 所 以 so_pcb 被 定义 成 一 个 通用 的 指针 。 图 15-7 列 出 了 我 们 讨 
论 的 控制 块 结 构 。 

so_pcb 从 来 不 直接 指向 tcpcb 结 构 ， 参 考 图 22-1， 
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TCP struct inpcb 22.35 
struct tcpcb 24.573 
ICMP IGNPRIRERE 


15-7 协议 控制 块 


47 so_proto 指 向 进程 在 socket 系 统 调 用 (7.4 证 ) 中 选择 的 协议 的 protosw 结 构 。 
48-64 设置 了 SO_ACCEPTCONN 标 志 的 插口 维护 两 个 连接 队列 。 还 没有 完全 建立 的 连接 (如 
TCP 的 三 次 握手 还 没完 成 ) 放 在 队列 so_g0 中 。 已 经 建立 的 连接 或 将 被 接受 的 连接 (例如 ，TCP 
的 三 次 握手 已 完成 ) 放 入 队列 so_q 中 。 队 列 的 长 度 分 别 为 so_q01len 和 so_qlen。 每 一 个 排 
队 的 连接 由 它 自 己 的 插口 来 表示 。 在 每 一 个 排队 的 插口 中 ，so_head 指 向 设置 了 
SO ACCEPTCONN 的 源 插 口 。 

插口 上 可 排队 的 连接 数 通 过 so_qlimit 来 控制 ， 进 程 可 以 通过 1isten 系 统 调用 来 设置 
so qlimit。 内 核 隐 含 设置 的 上 限 为 5 (SOMAXCONN， 图 15-24)、 下 限 为 0。 图 15-29 中 显示 
的 有 点 睡 次 的 公式 使 用 so_qlimit 来 控制 排队 的 连接 数 。 

图 15-8 说 明了 有 三 个 连接 将 被 接受 、 一 个 连接 已 被 建立 的 情况 下 的 队列 内 容 。 














socket() 
[ seo socket () 
[seg 当 TCP SYNSUAR, Sin 
FREE 进入 此 队列 





| sog | 
A aye Ei ia 
a a AE X f 














socket {} 


TCP SYN 被 应 答 时 将 插口 

移入 此 队列 ，accept 将 插 

口 从 此 队列 中 删除 
——— 


socket(í) socket {} 





图 15-8 插口 连接 队列 


65 so timeo 用 作 accept、connet 和 close 处 理 期 则 的 等 待 通道 (15.10 证 )。 

66 so_error 保 存 差错 代码 ， 直 到 在 引用 该 插口 的 下 一 个 系统 调用 期 间 差 错 代 码 能 送 给 
进程 。 

67 ”如果 插口 的 SS_ASYNC 被 设置 ， 则 SIGIO 信 号 被 发 送 给 进程 (如 果 so_pgid 大 于 0) 或 进程 
组 (如 果 so pgid 小 于 0)。 可 以 通过 ioct1 的 SIOCSPGRP 和 SIOCGPGRP 命 令 来 修改 或 检查 
so_pgidq 的 值 。 关 于 进程 组 的 更 详细 信息 请 参考 [Stevens 1992], 

68 ”so_oobmark 标 识 在 输入 数据 流 中 最 近 收 到 的 带 外 数据 的 开始 点 。16.11 节 将 讨论 插口 对 
带 外 数据 的 支持 ，29.7 节 将 讨论 TCP 中 的 带 外 数据 的 语义 。 

69-82 每 一 个 插口 包括 两 个 数据 缓存 so_rcv 和 so_snd, 分 别 用 来 缓存 接收 或 发 送 的 
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数据 。so_rcv 和 so_sndq 是 包含 在 插口 结构 中 的 结构 而 不 是 指 癌 结构 的 指针 。 我 们 将 在 第 16 
章 中 描述 插口 缓存 的 结构 和 使 用 。 

83-86 在 Net/3 中 不 使 用 so tpcb。so upcall 和 so upcallarg 也 仅 用 于 Net/3 中 的 NFS 
软件 。 


NFS 与 通常 的 软件 不 太一 样 。 在 很 大 程度 上 它 是 一 个 进程 级 的 应 用 但 却 在 内 核 中 _ 
运行 。 当 数据 到 达 接 收 缓存 时 ， 通 过 so_upcal1 来 触发 NFS 的 输入 处 理 。 在 这 种 情 
况 下 ，tsleep 和 wakeup 机 制 是 不 合适 的 ， 因 为 NFS 协 议 是 在 内 核 中 运行 的 ， 而 不 
是 作为 一 个 普通 进程 运行 。 
文件 socketvar.h 和 uipc socket2.c 定 义 了 儿 个 人 简化 插口 层 代 码 的 宏和 函数 。 图 15-9 
对 它们 进行 了 摘 述 。 


sosendallatonce 
soisconnecting 
int soisconnecting(struct socket *50); 


soreadable 插口 so 上 的 读 调 用 不 阻塞 就 返回 信息 吗 
= int soreadable (struct socket *so); 

sowriteable 插口 yo 上 的 写 调用 不 阻塞 就 返回 吗 
int sowriteable(struct socket *so); 


设置 插口 标志 SO_CANTSENDMORE。 唤 醒 所 有 等 待 在 发 送 缓存 上 的 进程 
soisdisconnecting 













so 中 指定 的 协议 要 求 每 一 个 发 送 系 统 调 用 产生 一 个 协议 请 求 吗 
int sosendallatonce(struct socket *50); 


将 插口 状态 设置 为 SO_ISCONNECTING 






















int socantsendmore(struct socket *50); 


设置 插口 标志 SO_CANTRCVMORE 。 唤 醒 所 有 等 待 在 接收 缓存 上 的 进程 


int socantrcvmore(struct socket *50); 



















清除 SS_ISCONNECTING 标 志 。 设 置 SS_ISDISCONG、SS_CANTRCVMORE 
和 SS_CRANTSENDMORE 标 志 。 唤 醒 所 有 等 竺 在 插口 上 的 进程 


int soisdisconnecting(struct socket *50); 








soisdisconnected 


Ssoqinsque 


soqremque 





清除 SS ISCONNECTING, SS ISCONNECTEDÁÉNISS ISDISCONNECTING 
标志 。 设 置 SS_CRANTRCVMORE 和 SS_CRANTSENDMORE 标 志 。 唤 醒 所 有 等 待 在 
插口 上 的 进程 或 等 待 close 完 成 的 进程 
int soisdisconnected(struct socket *50); 
将 so 插入 pead 指 向 的 队列 中 。 如 果 4 等 于 0， 插 口 被 插 到 存放 未 完成 的 连接 的 
so_q0 队 列 的 后 面 。 否则 , 插口 被 插 到 存放 准备 接受 的 连接 的 队列 so_q 的 后 面 。 
Net/1 错 误 地 将 插口 插 到 队列 的 前 面 

int soqinsque(struct socket *head, struct socket *so, int q); 


从 队列 g 中 删除 so。 通过 so- >so_head 来 定位 插口 队列 


int soqremque(struct socket *so, int 4); 






















图 15-9 插口 的 宏和 函数 
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15.4 系统 调用 


进程 同 内 核 交 互 是 通过 一 组 定义 好 的 函数 来 进行 的 ， 这 些 函 数 称 为 系统 调用 。 在 讨论 支 
持 网 络 的 系统 调用 之 前 ， 我 们 先 来 看 看 系统 调用 机 制 的 本 身 。 

从 进程 到 内 核 中 的 受 保护 的 环境 转换 是 与 机 器 和 实现 相关 的 。 在 下 面 的 讨论 中 ， 我 们 使 
用 Net/3 在 386 上 的 实现 来 说 明 如 何 实现 有 关 的 操作 。 

在 BSD 内 核 中 ， 每 一 个 系统 调用 均 被 编号 ， 当 进程 执行 一 个 系统 调用 时 ， 硬 件 被 配置 成 
仅 传送 控制 给 一 个 内 核 函数 。 将 标识 系统 调用 的 整数 作为 参数 传 给 该 内 核 函数 。 在 386 实 现 中 ， 
这 个 内 核 函 数 为 syscall。 利 用 系统 调用 的 编号 ，syscall 在 表 中 找到 请 求 的 系统 调用 的 
sysent 结 构 。 表 中 的 每 一 个 单元 均 为 一 个 sysent 结 构 。 


struct sysent { 


int sy narg; /* number of arguments */ 
int (*sy call) (); /* implementing function */ 
); /* system call table entry */ 
表 中 有 有 几 个 项 是 从 sysent 数 组 中 来 的 ， 该 数组 是 在 kern/init_sysent .c 中 定义 的 。 
struct sysent sysent[] = { 
| i 
{ 3, recvmsg }, /* 27 = recvmsg */ 
( 3, sendmsg ), /* 28 = sendmsg */ 
( 6, recvfrom ], /* 29 = recvfrom */ 
(3, accept }, /* 30 = accept */ 
T getpeername }, /* 312getpeername */ 
(3, getsockname ], /* 32 = getsockname */ 
SG 2r 


| 


例如 ，recvmsg 系 统 调 用 在 系统 调用 表 中 的 第 27 项 ， 它 有 两 个 参数 ， 利 用 内 核 中 的 
recvmsg Á% Sz Hi, 

syscall4tZ 48 Mis Hu RIP FR. EB. R6 1 CEDE DR fF 08 SEVA ITI ORE o 
然后 ， 当 系统 调用 执行 完成 后 ，syscal1 将 结果 返回 给 进程 。syscal1 将 控制 交 给 与 系统 调 
用 相对 应 的 内 核 函 数 。 在 386 实 现 中 ， 调 用 有 扩 像 下 面 所 示 : 


struct sysent *callp; 
error - (*callp-»sy call) (p, args, rval); 


这 里 指针 cal1p 指 向 相关 的 sysent 结 构 ; 指针 pP 则 指 回 调用 系统 调用 的 进程 的 进程 表 表 项 ; 
args 作 为 参数 传 给 系统 调用 ， 它 是 一 个 32 位 长 的 字数 组 ， 而 rval 则 是 一 个 用 来 保存 系统 调 
用 的 返回 结果 的 数组 ， 数 组 有 两 个 元 素 ， 每 个 元 素 是 一 个 32 位 长 的 字 。 当 我 们 用 “系统 调用 ” 
这 个 词 时 ， 我 们 指 的 是 被 syscal1 调 用 的 内 核 中 的 国 数 ， 而 不 是 应 用 调用 的 进程 中 的 图 数 。 

syscal1 期 望 系统 调 用 国 数 ( 即 sy_cal1 指 同 的 国 数 ) 在 役 有 差错 时 返回 0， 人 否则 返回 非 0 
的 差错 代码 。 如 果 没 有 差错 出 现 ， 内 核 将 rval 中 的 值 作为 系统 调用 (应 用 调用 的 ) 的 返回 值 传 
送 给 进程 。 如 果 有 差错 ，syscall 忽 略 rval 中 的 值 ， 并 以 与 机 如 相 关 的 方式 返回 差错 代码 
给 进程 ， 使 得 进程 能 从 外 部 变量 errno 中 得 到 差错 代码 。 应 用 调用 的 函数 则 返回 一 1 或 一 个 空 
指针 表示 应 用 应 该 查看 errno 获 得 差错 信息 。 l 

在 386 上 的 实现 ， 设 置 进位 比特 (carry bit) 来 表示 syscal1 的 返回 值 是 一 个 差错 代码 。 进 
程 中 的 系统 调用 残 桩 将 差错 代码 赋 给 errzno， 并 返回 一 1 或 空 指针 给 应 用 。 如 果 没 有 设置 进位 
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比特 ， 则 将 syscal1 返 回 的 值 返 回 给 进程 中 的 系统 调用 的 残 桩 。 
总 之 ， 实 现 系统 调用 的 函数 “返回 ”两 个 值 : 一 个 给 syscall 函 数 ， 在 没有 差错 的 情况 
下 ，syscall 将 另 一 个 (在 rval 中 ) 返 回 给 调用 进程 。 


15.4.1 举例 
socket 系统 调 用 的 原型 是 : 


int socket(int domain, int type, int protocol); 


实现 socket 系统 调用 的 内 核 函数 的 原型 古 : 
struct socket args { 
int domain; 
int type; 
int protocol; 
h 
socket(struct proc *p, struct socket args *uap, int *retval); 
当 一 个 应 用 调用 socket 时 ， 进 程 用 系统 调用 机 制 将 三 个 独立 的 整数 传 给 内 核 。syscall 
将 参数 复制 到 32 位 字 的 数组 中 ， 并 将 数组 指针 作为 第 二 个 参数 传 给 socket 的 内 核 版 。 内 核 版 
的 socket 将 第 二 个 参数 作为 指向 socket_azrgs 结 构 的 指针 。 图 15-10 显 示 了 上 述 过 程 。 


从 用 户 空间 复制 到 
内 核 空间 的 参数 


RS TS 


Socket argsí) 


图 1$-10 socket 参数 处 理 


同 socket 类似， 每 一 个 实现 系统 调用 的 内 核 函 数 将 args 说 明成 一 个 与 系统 调用 有 关 的 
结构 指针 ， 而 不 是 一 个 指向 32 位 字 的 数组 的 指针 。 
HERLAH, BANA A HRA RKR C 中 或 ANSI C 中 是 合法 的 。 如 
果 原 型 是 有 效 的 ， 则 编译 器 将 产生 一 个 警告 。 
syscal1 在 执行 内 核 系统 调用 函数 之 前 将 返回 值 置 为 0(。 如 果 设 有 差错 出 现 ， 系 统 调 用 图 
数 直 接 返 回 而 不 需要 清除 *retval，syscall 返 回 0 给 进程 。 


15.4.2 系统 调用 小 结 
图 15-11 对 与 网 络 有 关 的 系统 调用 进行 了 小 结 。 
我 们 将 在 本 章 中 讨论 建立 、 服 务 器 、 客 户 和 终止 类 系统 调用 。 输 入 、 输 出 类 系统 调用 将 


在 第 16 章 中 介绍 ， 管 理 类 系统 调用 将 在 第 17 划 中 介绍 。 
图 15-12 画 出 了 应 用 使 用 这 些 系统 调用 的 顺序 。 大 方块 中 的 IO 系统 调用 可 以 在 任何 时 候 调 用 。 该 
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ELE" sESEBUAR SU ER, BAE ERARE RARA mh, Xo E L, 
建立 socket 在 指明 的 通信 域内 产生 一 个 未 命名 的 插口 
bind 分 配 一 个 本 地 地 址 给 插口 
pag | en 使 插口 准备 接收 连接 请 求 
accept 等 待 并 接受 连接 


IDETITIET, 


接收 数据 到 一 个 缓存 中 
接收 数据 到 多 个 缓存 中 
指明 选项 接收 数据 
接收 数据 和 发 送 者 的 地 址 

接收 数据 到 多 个 缓存 中 ， 接 收 控制 信息 和 发 送 者 地 址 ， 指 明 接 收 选项 
发 送 一 个 缓存 中 的 数据 
发 送 多 个 缓存 中 的 数据 
指明 选项 发 送 数 据 

发 送 数 据 到 指明 的 地 址 
从 多 个 缓存 发 送 数 据 和 控制 信息 到 指明 的 地 址 ， 指 明 发 送 选 项 


shutdown 终止 一 个 或 两 个 方向 上 的 连接 

close 终止 连接 并 释放 插口 
修改 IO 语义 
各 类 插口 操作 























recvfrom 





recvmsg 






writev 





send 





sendto 








sendmsg 



























setsockopt 设置 插口 或 协议 选项 
getsockopt 得 到 插口 或 协议 选项 


得 到 分 配给 插口 的 本 地 地 址 
得 到 分 配给 插口 的 远 端 地 址 


getsockname 





getpeername 


图 15-11 Net/3 中 的 网 络 系统 调用 


write read 
writev TES readv 
sendto readfrom 


sendmsg readmsg 





图 15-12 网 络 系统 调用 流程 图 
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15.5 ” 进程、 描述 符 和 插口 


在 描述 插口 系统 调用 之 前 ， 我 们 需要 介绍 将 进程 、 描 述 符 和 插口 联系 在 一 起 的 数据 结构 。 
图 15-13 给 出 了 这 些 结构 以 及 与 我 们 的 讨论 有 关 的 结构 成 员 。 关 于 文件 结构 的 更 复杂 的 解释 请 
参考 [Leffer et al. 1989]。 


procí) filedesc() *file()[] 


"m " 
EC. : ， nC ER 
ETE EI ey 
E 
Es 
Lo 













Wd eic er OO HIP PRSE SA 
fd ofiles 
NU NEU RU SUE EE] 


d m 





fd 









file() 
x 









socketops: 
socket () 
E [ soo write | 
so type | [ soo ioctl | 
L so proto | [ soo select - 
Em [ soo close | 





图 15-13 进程 、 文 件 和 插口 结构 


实现 系统 调用 的 函数 的 第 一 个 参数 总 为 p， 即 指向 调用 进程 的 proc 结 构 的 指针 。 内 核 
利用 proc 结 构 记 录 进 程 的 有 关 信息 。 在 proc 结 构 中 ，p_fd 指 向 filedesc 结 构 ， 该 结构 
的 主要 功能 是 管理 fd_ofiles 指 向 的 描述 符 表 。 描 述 符 表 的 大 小 是 动态 变化 的 ， 由 一 个 指 
向 file 结 构 的 指针 数组 组 成 。 每 一 个 file 结 构 描 述 一 个 打开 的 文件 ， 该 结构 可 被 多 个 进 
程 共 享 。 

图 15-13 仅 显示 了 一 个 file 结 构 。 通 过 p->p_fd->fd_ ofiles [fd] 访 问 访 结构。 在 
file 结 构 中 ， 有 两 个 结构 成 员 是 我 们 感 兴趣 的 : £_ops 和 f£f_data。1I/O 系 统 调用 (如 read 和 
write) 的 实现 因 描 述 符 中 的 IO 对 象 类 型 的 不 同 而 不 同 。f_ops 指 向 fileops 结 构 ， 该 结构 
包含 一 个 实现 read、write、ioctl、select 和 close 系 统 调用 的 函数 指针 表 。 图 15-13 
显示 f_ops 指 向 一 个 全 局 的 fileops 结 构 ， 即 socketops， 该 结构 包含 指向 插口 用 的 尔 数 
的 指针 。 

£f_data 指 向 相关 I/O 对 象 的 专用 数据 。 对 于 插口 而 言 ，£_data 指 向 与 描述 符 相 关 的 
socket 结 构 。 最 后 ，socket 结 构 中 的 so_proto 指 向 产生 插口 时 选中 的 协议 的 protosw 结 
构 。 回 想 一 下 ， 每 一 个 protosw 结 构 是 由 与 该 协议 关联 的 所 有 插口 共享 的 。 

下 面 我 们 开始 讨论 系统 调用 。 | 


一 
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15.6 socket 系统 调用 


socket 系 统 调 用 产生 一 个 新 的 插口 ， 并 将 插口 同 进程 在 参数 domain、type 和 
protocol 中 指定 的 协议 联系 起 来 。 该 函数 (如 图 15-14 所 示 ) 分 配 一 个 新 的 描述 符 ， 用 来 在 后 
续 的 系统 调用 中 标识 插口 ， 并 将 描述 符 返 回 给 进程 。 


uipc syscalls.c 
42 struct socket args { 


43 int domain; 
44 int type; 

45 int protocol; 
46 ); 


47 socket(p, uap, retval) 
48 struct proc *p; 
49 struct socket args *uap; 


50 int *retval; 

51 1 

52 struct filedesc *fdp - p-»p fd; 
53 struct socket *so; 

54 struct file *fp; 

55 int fd, error; 

56 if (error = fallocí(p, &fp, &kfd]) 
57 return (error); 

58 fp-»f flag = FREAD | FWRITE; 

59 fp-»f type = DTYPE SOCKET; 

60 fp-»f ops = &socketops; 

61 if (error = socreate(uap-»domain, &so, uap-»type, uap-»protocol)) ( 
62 fdp-»fd ofiles[fd] = 0; 

63 ffree(fp); 

64 ) else ( 

65 fp-»-f data = (caddr.t) so; 
66 *retval = fd; 

67 ) 

68 return (error); 

69 } 


uipc syscalls.c 


图 15-14 _ socket 系统 调用 


42-55 每 一 个 系统 调用 的 前 面 都 定义 了 一 个 描述 进程 传递 给 内 核 的 参数 的 结构 。 在 这 种 情 
况 下 ， 参 数 是 通过 socket_args 传 人 的 。 所 有 插口 层 系统 调用 都 有 三 个 参数 : P， 指 同调 
用 进程 的 proc 结 构 ，uap， 指 向 包含 进程 传送 给 系统 调用 的 参数 的 结构 ;retval， 用 来 
接收 系统 调用 的 返回 值 。 在 通常 情况 下 ， 忽 略 参数 p 和 retval，3 引 | 用 uap 所 指 的 结构 中 的 
内 容 。 

56-60 falloc 分 配 一 个 新 的 file 结 构 和 fd ofiles 数 组 (图 15-13) 中 的 一 个 元 素 。fp 指 
向 新 分 配 的 结构 ，fd 则 为 结构 在 数组 fd_ofiles 中 的 索引 。 
socket 将 file 结 构 设 置 成 可 读 、 可 写 ， 并且 作为 一 个 插口 。 
将 所 有 插口 共享 的 全 局 fileops 结 构 socketops 连 接 到 
f_ops 指 向 的 Eile 结 构 中 。socketops 变 量 在 编译 时 被 初始 
化 ， 如 图 15-15 所 示 。 l 
60-69 socreate 分 配 并 初始 化 一 个 socket 结 构 。 如 采 15-15 socketops: 插口 
socreate 执 行 失败 ， 将 差错 代码 赋 给 erzror， 和 释放 file 结 用 全 局 fileops 结 构 




















fo read 
fo write 
fo loct 
fo select 
fo close 


soo read 
Soo write 
soo ioctl 
soo select 
Soo close 
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构 ， 清 除 存放 描述 符 的 数组 元 素 。 如 果 socreate 执 行 成 功 ， 将 f£_data 指 向 socket 结 构 ， 
建立 插口 和 描述 符 之 间 的 联系 。 通 过 *retval 将 Ed 返回 给 进程 。socket 返 回 0 或 返回 由 
socreate 返 回 的 差错 代码 。 


15.6.1 socreatetfi Zi 


大 多 数 插口 系统 调用 至 少 被 分 成 两 个 函数 ， 与 socket 和 socreate 类 似 。 第 一 个 函数 从 
进程 那里 获取 需要 的 数据 ， 调 用 第 二 个 函数 soxxx 来 完成 功能 处 理 ， 然 后 返回 结果 给 进程 。 这 
种 分 成 多 个 函数 的 做 法 是 为 了 第 二 个 函数 能 直接 被 基于 内 核 的 网 络 协议 调用 ， 如 NFs 。 
socreate 的 代码 如 图 15-16 所 示 。 


uipc_socket.c 
43 socreate(dom, aso, type, proto) 
44 int dom; 
45 struct socket **aso; 
46 int type; 
47 int proto; 
48 ( 
49 struct proc *p - curproc; /* XXX */ 
50 struct protosw *prp; 
91 struct socket *so; 
52 int error; 
53 if (proto) 
54 prp - pffindproto(dom, proto, type); 
55 else 
56 prp - pffindtype(dom, type); 
57 if (prp == 0 || prp-»pr . usrreq == 0) 
58 return (EPROTONOSUPPORT); 
59 if (prp-»pr type !- type) 
60 return (EPROTOTYPE); 
61 MALLOC (so, struct socket *, sizeof(*so), M SOCKET, M WAIT); 
62 bzero((caddr t) so, sizeof(*so)); 
63 SO-»SO type = type; 
64 if (p-»p ucred-»cr. uid == 0) 
65 SO-»SO State = SS PRIV; 
66 SO-»SO. proto = prp; 
67 error = 
68 (*prp-»pr usrreq) (so, PRU ATTACH, 
69 (struct mbuf *) O0, (struct mbuf *) proto, (struct mbuf *) 0); 
70 if (error) ( 
71 So-»so state |= SS NOFDREF; 
72 sofree(so); 
73 return (error); 
74 ) 
72 *aso - SO; 
76 return (0); 
T? j 
uipc socket.c 


[15-16 socreaterü7 
43-52 socreate 共 有 四 个 参数 : dom， 请 求 的 协议 域 (如 ，PF_INET); aso, 保存 指 癌 一 
个 新 的 socket 结 构 的 指针 ; type， 请 求 的 插口 类 型 (如 ，SOCK STREAM); proto, WKH 
协议 。 
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1. 发 现 协议 交换 表 
53-60 如 果 proto 等 于 非 0 值 ，pffindproto 查 找 进程 请 求 的 协议 。 如 果 proto 等 于 0， 
pffindtype 用 由 type 指 定 的 语义 在 指定 域 中 查找 一 种 协议 。 这 两 个 函数 均 返 回 一 个 指向 匹 
配 协议 的 pzotosw 结 构 的 指针 或 空 指针 (参考 7.6 节 )。 

2. 分 配 并 初始 化 socket 结 构 
61-66 socreate 分 配 一 个 新 的 socket 结 构 ， 并 将 结构 内 容 全 部 清 0， 记 录 type。 如 果 调 
用 进程 有 超级 用 户 权 限 ， 则 设置 播 口 结构 中 的 SS_PRIV 标 志 。 

3. PRU ATTACH 请 求 
67-69 在 与 协议 无 关 的 插口 层 中 发 送 与 协议 有 关 的 请 求 的 第 一 个 例子 出 现在 socreate 中 。 
回想 在 7.4 节 和 图 1$-13 中 ，so->so proto-»pr usrreq 是 一 个 指向 与 插口 so 相关 联 的 协 
议 的 用 户 请 求 函数 指针 。 每 一 个 协议 均 提 供 了 一 个 这 样 的 函数 来 处 理 从 插口 层 来 的 通信 请 求 。 
函数 原型 是 : 

int pr usrreq(struct socket *so, int req, struct mbuf *m0, *ml, *m2); 

第 一 个 参数 是 一 个 指 癌 相关 搬 口 的 指针 ，re4d 是 一 个 标识 请 求 的 前 数 。 后 三 个 参数 (m0， 
m1，m2) 因 请 求 不 同 而 异 ， 它 们 总 是 被 作为 一 个 mbuf 结 构 指 针 传 递 ， 即 使 它们 是 其 他 的 类 型 。 
在 必要 的 时 候 ， 进 行 类 型 转换 以 避免 编译 妖 的 警告 。 

图 15-17 列 出 了 pr_usrreq 函 数 提供 的 通信 请 求 。 每 一 个 请 求 的 语义 取决 于 服务 请 求 的 协议 。 


PRU ABORT 异常 终止 每 一 个 存在 的 连接 
PRU ACCEPT address 等 待 并 接受 连接 

PRU ATTACH protocol 产生 了 一 个 新 的 插口 

PRU BIND address 绑 定 地 址 到 插口 
PRU_CONNECT address 同 地 址 建立 关联 或 连接 

PRU CONNECT2 socket2 将 两 个 播 口 连 在 一 起 

PRU DETACH 插口 被 关闭 

PRU DISCONNECT 切断 插口 和 另 一 地 址 间 的 关联 
PRU LISTEN 开始 监听 连接 请 求 

PRU PEERADDR buffer 返回 与 插口 关联 的 对 方 地 址 
PRU RCVD flags 进程 已 收 到 一 些 数 据 

PRU RCVOOB flags 接收 OOB 数 据 

PRU SEND address | control 发 送 正常 数据 

PRU SENDOOB address control 发 送 OOB 数 据 

PRU SHUTDOWN 结束 同 另 一 地 址 的 通信 

PRU SOCKADDR buffer 返回 与 插口 相关 联 的 本 地 地 址 





图 15-17 pr usrreqrf2x 
PRU_CONNECT2 请 求 只 用 于 Unix 域 ， 它 的 功能 是 将 两 个 本 地 插口 连接 起 来 。 
Unix 的 管道 (pipe) 就 是 通过 这 种 方式 来 实现 的 。 


4. 退出 处 理 
70-77 回 到 socreate， 图 数 将 协议 交换 表 连 接 到 插口 ， 发 送 PRU_ATTACHi 请 求 通知 协议 
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已 建立 一 个 新 的 连接 端点 。 该 请 求 引 起 大 多 数 协议 如 TCP 和 UDP 分 配 并 初始 化 所 有 支持 新 的 
连接 端点 的 数据 结构 。 
15.6.2 超级 用 户 特权 
图 15-18 列 出 了 要 求 超级 用 户 权 限 的 网 络 操 作 。 


分 配 接口 地 址 、 网 络 掩 码 、 目 的 地 址 图 6-14 
in control 分 配 广 播 地 址 图 6-22 


in pcbbind W EEL — ^ /] T 1024 BJ Internetg; O 图 22-22 
ifioctl 改变 接口 配置 [&| 4-29 
ifioctl 配置 多 播 地 址 ( 见 正文 ) 图 12-11 
rip usrreq 产生 一 个 ICMP、IGMP 或 原始 IPH El 图 32-10 
slopen 将 一 个 SLIP 设 备 与 一 个 tty 设 备 联系 起 来 | 图 5-9 





图 15-18 Net/3 中 的 超级 用 户 特 权 


当 多 播 ioct1 命 令 (SIOCRDDMULTI 和 SIOCDELMULTI) 是 被 ITP ADD 
MEMBBERSHIP 和 IP_DROP MEMBERSHIP 揪 口 选项 间接 激活 时 ， 它 可 以 被 非 超 级 用 
Pr. 

在 图 15-18 中 ,“ 进 程 ” 栏 表示 请 求 必 须 由 超级 用 户 进程 来 发 起 ,“ 插 口 ” 栏 表示 请 求 必须 
针对 由 超级 用 户 产 生 的 插口 (也 就 是 说 ， 进 程 不 需要 超级 用 户 权 限 ， 而 只 需要 有 访问 插口 的 权 
限 ， 见 习题 15.1)。 在 Net/3 中 ，suser 函 数 用 来 判断 调用 进程 是 否 有 超级 用 户 权 限 ， 通 过 
SS_PRIV 标 志 来 判断 一 个 插口 是 否 由 超级 用 户 进 程 产生 。 

因为 rip_usrreq 在 用 socreate 产 生 插 口 后 立即 检查 SS_PRIV 标 志 ， 所 以 我 们 认为 只 
有 超级 用 户 进 程 才 能 访问 这 个 函数 。 


15.7 getsockdjlsockargsthZI 


这 两 个 函数 重复 出 现在 插口 系统 调用 中 。getsock 的 功能 是 将 描述 符 映 射 到 一 个 文件 表 
项 中 ，sockargs 将 进程 传 和 的 参数 复制 到 内 核 中 的 一 个 新 分 配 的 mbuf 中 。 这 两 个 函数 都 要 
检查 参数 的 正确 性 ， 如 果 参 数 不 合 法 ， 则 返回 相应 的 非 0 差 错 代 码 。 

图 15-19 列 出 了 getsock 函 数 的 代码 。 

754-767 getsock 国 数 利 用 fdqp 查 找 摘 述 符 Edaes 指 定 的 文件 表 项 ，fdp 是 指 同 filedesc 
结构 的 指针 。getsock 将 打开 的 文件 结构 指针 赋 给 EpPp， 并 返回 ， 或 者 当 出 现下 列 情况 时 
返回 差错 代码 : 摘 述 符 的 值 超过 了 范围 而 不 是 指 同 一 个 打开 的 文件 ;描述 符 没 有 同 揪 口 建立 

图 1$-20 列 出 了 sockazrgs 国 数 的 代码 。 

768-783 15.4 市 所 描述 的 ，sockargs 将 进程 传 给 系统 调用 的 参数 的 指针 从 进程 复制 到 内 
核 而 不 古 复 制 指 针 指向 的 数据 ， 这 样 做 是 因为 每 一 个 参数 的 语义 只 有 相对 应 的 系统 调用 才 知 
道 ， 而 不 是 针对 所 有 的 系统 调用 。 多 个 系统 调用 在 调用 sockargs 复 制 参 数 指针 后 ， 将 指针 
指 四 的 数据 从 进程 复制 到 内 核 中 新 分 配 的 mbuf 中 。 例 如 ，sockargs 将 bind 的 第 二 个 参数 指 


362 


TCP/IP ŽA 2: 实现 


向 的 本 地 插口 地 址 从 进程 复制 到 一 个 mbuf 中 。 


754 
755 
756 
757 
758 
799 


760 
761 
762 
763 
764 
765 
766 
767 


768 
769 
770 
PT 
772 
713 
774 
TTS 


776 
777 
778 
719 
780 
781 
782 
783 
784 
785 
786 
787 
788 
789 
790 
791 
792 
493 
794 


getsock(fdp, fdes, fpp) 
struct filedesc *fdp; 
int fdes; 
struct file **fpp; 
( 

struct file *fp; 


if ((unsigned) fdes >= fdp-»fd nfiles || 
(fp = fdp-»fd ofiles[fdes]) == NULL) 
return (EBADF); 

if (fp-»f type !- DTYPE SOCKET) 
return (ENOTSOCK); 

*fpp = fp; 

return (0); 


图 15-19 getsockrR7X 


sockargs (mp, buf, buflen, type) 
struct mbuf **mp; 
caddr t buf; 
int buflen, type; 
( 
struct sockaddr *sa; 
struct mbuf *m; 
int error; 


if ((u int) buflen » MLEN) ( 
return (EINVAL); 

) 

m = m get(M WAIT, type); 

if (m == NULL) 
return (ENOBUFS); 

m-»m len - buflen; 


error - copyin(buf, mtod(m, caddr t), (u int) buflen); 


if (error) 
(void) m free (m); 
else ( 
*mp = m; 
if (type == MT SONAME) ( 
sa - mtod(m, struct sockaddr *); 
Ssa-»sa len = buflen; 
) 
) 
return (error); 


) 


图 1$-20 sockargs p% 


uipc syscalls.c 


uipc syscalls.c 


uipc syscalls.c 


"wipc syscalls.c 


如 果 数 据 不 能 存 人 一 个 mbuf 中 或 无 法 分 配 mbuf， 则 sockazrgs 返 回 EINVRAL 或 ENOBUES 。 
注意 ， 这 里 使 用 的 是 标准 的 mbuf 而 不 是 分 组 首部 的 mbuf。copyin 的 功能 是 将 数据 从 进程 复 
制 到 mbuf 中 。copyin 返 回 的 最 常见 的 差错 是 EACCES， 它 表示 进程 提供 的 地 址 不 正确 。 
784-785 当 出 现 差错 时 ， 丢 弃 mbuf， 并 返回 差错 代码 。 如 果 没 有 差错 ， 通 过 mp 返回 指向 
mbuf 的 指针 ，sockargqs 返 回 0。 
786-794 如果 type 等 于 MT SONAME， 则 进程 传 入 的 是 一 个 sockaddr 结 构 。sockargs 
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将 刚 复制 的 参数 的 长 度 赋 给 内 部 长 度 变 量 sa len。 这 一 点 确保 即使 进程 没有 正确 地 初始 化 结 
构 ， 结 构 内 的 大 小 也 是 正确 的 。. 
Net/3 确 实 包 含 了 一 段 代码 来 支持 在 pre-4.3BSD Reno 系 统 上 编译 的 应 用 ， 这 些 应 
用 的 sockaddr 结 构 中 并 没有 sa len 字 段 ， 但 是 图 15-20 中 没有 显示 这 段 代码 。 


15.8 bind 系 统 调用 


bind 系 统 调用 将 一 个 本 地 的 网 络 运 输 层 地 址 和 插口 联系 起 来 。 一 般 来 说 ， 作 为 客户 的 进 
程 并 不 关心 它 的 本 地 地 址 是 什么 。 在 这 种 情况 下 ， 进 程 在 进行 通信 之 前 没有 必要 调用 bingd,， 
内 核 会 自动 为 其 选择 一 个 本 地 地 址 。 

服务 器 进程 则 总 是 需要 绑 定 到 一 个 已 知 的 地 址 上。 所以， 进程 在 接受 连接 (TCP) 或 接收 数 
据 报 (UDP) 之 前 必须 调用 binda， 因 为 客户 进程 需要 同 已 知 的 地 址 建立 连接 或 发 送 数据 报到 已 
知 的 地 址 。 

插口 的 外 部 地 址 由 connect 指 定 或 由 允许 指定 外 部 地 址 的 写 调用 (sendto 或 sendmsg) 
指定 。 

图 15-21 列 出 了 bind 调 用 的 代码 。 


uipc syscalls.c 
70 struct bind args ( pc. SY 


71 int S; 

72 caddr t name; 

7 int namelen; 
74 ); 


75 bind(p, uap, retval) 
76 struct proc *p; 
77 struct bind args *uap; 


78 int *retval; 

79 ( 

80 struct file *fp; 

81 struct mbuf *nam; 

82 int error; 

83 if (error - getsock(p-»p fd, uap-»s, &fp)) 

84 return (error); 

85 if (error = sockargs(&nam, uap-»name, uap-»namelen, MT SONAME)) 
86 return (error); 

87 error = sobind((struct socket *) fp-»f data, nam); 
88 m freem(nam); 

&9 return (error); 

90 ) 


uipc, syscalls.c 
图 15-21 binadq 畏 数 
70-82 bind 调 用 的 参数 (在 bind_args 结 构 中 ) 有 : s， 揪 口 描述 符 ，name， 包 含 传输 地 址 
(如 sockaddr in 结 构 ) 的 缓存 指针 ; namelen, 缓存 大 小 。 
83-90 getsock 返 回 描述 符 的 file 结 构 ，sockargs 将 本 地 地 址 复制 到 mbuf 中 ，sobind 
将 进程 指定 的 地 址 同 插口 联系 起 来 。 在 bind 返 回 sobind 的 结果 之 前 ， 释 放 保 存 地 址 的 mbuf。 
从 技术 上 讲 ， 一 个 描述 符 ( 如 s) 标 识 一 个 同 socket 结 构 相 关联 的 file 结 构 ， 而 
它 本 身 并 不 是 一 个 socket 结 构 。 将 这 种 描述 符 看 作 插 口 是 为 了 简化 我 们 的 讨论 。 
我 们 将 在 下 面 的 讨论 中 经 常 看 到 这 种 模式 : 进程 指定 的 参数 被 复制 到 mbuf， 必 要 时 还 要 
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进行 处 理 ， 然 后 在 系统 调用 返回 之 前 释放 mbuf。 虽 然 mbuf 是 为 方便 处 理 网 络 数据 分 组 而 设计 
的 ， 但 是 将 它们 用 作 一 般 的 动态 内 存 分 配 机 制 也 是 有 效 的 。 

bind 说 明 的 另 一 种 模式 是 : 许多 系统 调用 不 使 用 retval。 在 15.4 市 中 我 们 已 提 到 过 ， 
在 syscall 将 控制 交 给 相应 的 系统 调用 之 前 总 是 将 retval 清 0。 如 果 0 不 是 合适 的 返回 值 ， 
系统 调用 并 不 需要 修改 retval,。 


sobind 函 数 


如 图 15-22 所 示 ，sobind 是 一 个 封装 器 ， 它 给 与 插口 相关 联 的 协议 发 送 PRU_BIND 请 求 。 
—— a — — — — uipc. socket.c 

78 sobindí(so, nam) 

79 struct socket *so; 

80 struct mbuf *nam; 


81 ( 

82 int s = splnet(); 

83 int error; 

84 error = 

85 (*so-»so proto-»pr usrreq) (so, PRU_BIND, 

86 (struct mbuf +) 0; nam, (struct Mbut *) 0); 
87 Splixí(ís); 

88 return (error); 

89 } 


uipc socket.c 
[15-22 sobindtrKk7 


78-89 sobind 发 送 PRU_BIND 请 求 。 如 果 请 求 成 功 ， 将 本 地 地 址 nam 同 插口 联系 起 来 ; A 
则 ， 返 回 差错 代码 。 


15.9 listen 系 统 调 用 


1isten 系 统 调用 的 功能 是 通知 协议 进程 准备 接收 插口 上 的 连接 请 求 ， 如 图 15-23 所 示 。 
它 同 时 也 指定 插口 上 可 以 排队 等 待 的 连接 数 的 门限 值 。 超 过 门限 值 时 ， 插 口 层 将 拒绝 进入 的 
连接 请 求 排 队 等 待 。 当 这 种 情况 出 现时 ，TCP 将 忽略 进入 的 连接 请 求 。 进 程 可 以 通过 调用 
accept (15.11 布 ) 来 得 到 队列 中 的 连接 。 


uipc syscalls.c 
91 struct listen args { 


92 int S; 
93 int backlog; 
94 }; 


95 listen(p, uap, retval) 
96 struct proc *p; 
97 struct listen args *uap; 


98 int *retval; 

99 ( 

100 strüct file tip; 

101 int error; 

102 if (error - getsock(p-»p fd, uap-»s, &fp)) 

103 return (error); 

104 return (solisten((struct socket *) fp-»f data, uap-»backlog)); 
105 } 


uipc syscalls.c 


Æ 15-23 listen Z Zril HH 
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91-98 listen 系 统 调用 有 两 个 参数 : 一 个 指定 插口 描述 符 ， 男 一 个 指定 连接 队列 门限 值 。 
99-105 getsock 返 回 描 述 符 6 的 file 结 构 ，solisten 将 请 求 传递 给 协议 层 。 


solisten ži 


solisten 国 数 发 送 PRU LISTEN 请 求 ， 并 使 插口 准备 接收 连接 ， 如 图 15-24 所 示 。 
90-109 在 solisten 发 送 PRU LISTEN 请 求 和 pr_usrreq 返 回 后 ， 标 识 插 口 处 于 准备 接收 连 
接 状 态 。 如 果 当 pr_usrreq 返 回 时 有 连接 正在 连接 队列 中 ， 则 不 设置 SS_ACCEPTCONN 标 志 。 
计算 存放 进入 连接 的 队列 的 最 大 值 ， 并 赋 给 so_glimit。Net3 默 认 把 连接 数 下 限 设置 为 
0， 上 限 设 置 为 5(SOMAXCONN)。 


- uipc_socket.c 
90 solisten(so, backlog) 
91 struct socket *so; 
92 int backlog; 
93 { 
94 int S = splnet(), error; 
95 error - 
96 (*so-»so proto-»pr usrreq) (so, PRU LISTEN, 
97 (struct mbuf *) 0, (struct mbuf *) 0, (struct mbuf *) 0); 
98 if (error) ( 
99 splx(s); 
100 return (error); 
101 ) 
102 if (so-»so q == O0) 
103 SO-»SO options |= SO ACCEPTCONN; 
104 if (backlog « 0) 
105 backlog = 0; 
106 SO-»Sso qlimit = min(backlog, SOMAXCONN); 
107 epix (s); 
108 return (0); 
109 } 

uipc_socket.c 


图 15-24 solisten% 


15.10 tsleep 和 wakeup 孙 数 


当 一 个 在 内 核 中 执行 的 进程 因为 得 不 到 内 核资 源 而 不 能 继续 执行 时 ， 它 就 调用 tsleep 等 
fi, tsleepfjJp UE 

int tsleep(caddr t chan, int pri, char *mesg, int timeo); 

tsleep 的 第 一 个 参数 chan， 称 之 为 等 待 通道 ， 它 标志 进程 等 待 的 特定 资源 或 事件 。 许 多 
进程 能 同时 在 同一 个 等 待 通道 上 睡 卢 。 当 资源 可 用 或 事件 出 现时 ， 内 核 调 用 wakeup， 并 将 等 
待 通道 作为 唯一 的 参数 传人 。wakeup 的 原型 是 : 

void wakeup(caddr t chan); 

所 有 等 待 在 该 通道 上 的 进程 均 被 唤醒 ， 并 被 设置 成 运行 状态 。 当 每 一 个 进程 均 恢复 执行 
时 ， 内 核 安 排 tsleep 返 回 。 

当 进 程 被 唤醒 时 ，ts1leep 的 第 二 个 参数 pri 指 定 被 唤醒 进程 的 优先 级 。Pri 中 还 包括 几 个 
用 于 tsleep 的 可 选 的 控制 标志 。 通 过 设置 pri 中 的 PCATCH 标 志 ， 当 一 个 信号 出 现时 ， 
tsleep 也 返回 。 mesg 是 一 个 说 明 调 用 tsleep 的 字符 串 , 它 将 被 放 在 调用 报 文 或 ps 的 输出 中 。 
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timeo A HEIRE PERS EIRE, ROR DEAE PERS. 

图 15-25 列 出 了 tsleep 的 返回 值 。 

因为 所 有 等 待 在 同一 等 待 通道 上 的 进程 均 被 wakeup 唤 醒 ， 所 以 我 们 总 是 看 到 在 一 个 循环 中 
调用 tsleep。 每 一 个 被 唤醒 的 进程 在 继续 执行 之 前 必须 检查 等 待 的 资源 是 否 可 得 到 ， 因 为 另 一 
个 被 唤醒 的 进程 可 能 已 经 先 一 步 得 到 了 资源 。 如 果 仍 然 得 不 到 资源 ， 进 程 再 次 调用 tsleep 等 待 。 


tsleep() 


0 进程 被 一 个 匹配 的 wakeup 唤 醒 


EWOULDBLOCK | 进程 在 睡眠 timeo 个 时 钟 滴答 后 ， 在 匹配 的 wakeup 调 用 之 前 被 唤醒 
ERESTART 在 睡眠 期 间 信 号 被 进程 处 理 ， 应 重新 启动 挂 起 的 系统 调用 
EINTR 在 睡眠 期 间 信号 被 进程 处 理 ， 挂 起 的 系统 调用 失败 





图 15-25 tsleep 的 返回 值 


多 个 进程 在 一 个 插口 上 睡眠 等 待 的 情况 是 不 多 见 的 ， 所 以 ,通常 情况 下 ， 每 次 调用 
wakeup 只 有 一 个 进程 被 内 核 唤 醒 。 
关于 睡眠 和 唤醒 机 制 的 详细 讨论 请 参考 [Leffler et al. 1989], 


举例 


多 个 进程 在 同一 个 等 待 通道 上 睡眠 的 一 个 例子 是 : 让 多 个 服务 器 进程 读 同 一 个 UDP 插 口 。 
每 一 个 服务 器 都 调用 recvfzom， 并 且 只 要 没有 数据 可 读 就 在 ksleep 中 等 待 。 当 一 个 数据 报到 
达 插 口 时 ， 插 口 层 调用 wakeup， 所 有 等 待 进程 均 被 放 入 运行 队列 。 第 一 个 运行 的 服务 器 读 取 了 
数据 报 而 其 他 的 服务 器 则 再 次 调用 tsleep。 在 这 种 情况 下 ， 不 需要 每 一 个 数据 报 启动 一 个 新 的 
进程 ， 就 可 将 进入 的 数据 报 分 发 到 多 个 服务 器。 这 种 技术 同样 可 以 用 来 处 理 TCP 的 连接 请 求 ， 
只 需 让 多 个 进程 在 同一 个 插口 上 调用 accept。 这 种 技术 在 [Comer and Stevens 1993] 中 描述 。 


15.11 accept 系 统 调 用 


调用 1isten 后 ， 进 程 调用 accept 等 待 连接 请 求 。accept 返 回 一 个 新 的 描述 符 ， 指 问 
一 个 连接 到 客户 的 新 的 插口 。 原 来 的 插口 s 仍 然 是 未 连接 的 ， 并 准备 接收 下 一 个 连接 。 如 果 
name 指 同一 个 正确 的 缓存 ，accept 就 会 返回 对 方 的 地 址 。 

处 理 连 接 的 细 闻 由 与 揪 口 相关 联 的 协议 来 完成 。 对 于 TCP 而 言 ， 当 一 条 连接 已 经 被 建立 ( 即 ， 
三 次 握手 已 经 完成 ) 时 ， 就 通知 插口 层 。 对 于 其 他 的 协议 ， 如 OSI 的 TP4， 只 要 一 个 连接 请 求 到 
达 ，tsleep 就 返回 。 当 进程 通过 在 插口 上 发 送 或 接收 数据 来 显 式 证 实 连 接 后 ， 连 接 则 算 完成 。 

图 15-26 说 明 accept 的 实现 。 


uipc syscalls.c 
106 struct accept args ( 


107 int S; 

108 caddr t name; 

109 int *anamelen; 
REID 3 


111 accept (p, uap, retval) 
112 struct proc *p; 

113 struct accept args *uap; 
114 int *retval; 


图 15-26 accept 系统 调用 
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struct file *fp; 

struct mbuf *nam; 

ink namelen, error, S; 
struct socket *so; 


if (uap-»name && (error - copyin((caddr t) uap-»anamelen, 
(caddr t) & namelen, sizeof (namelen)))) 
return (error); 
if (error - getsock(p-»p fd, uap-»s, &fp)) 
return (error); 
S = splnet(); 


SO = (struct socket *) fp-»f data; 

if ((so-»so options & SO ACCEPTCONN) == 0) ( 
splx(s); 
return (EINVAL); 

) 

if ((so-»so state & SS NBIO) && so-»so qlen == 0) { 
splx(s); 
return (EWOULDBLOCK); 

) 

while (so-»so qlen == 0 && so-»so error == 0) { 


if (so-»so state & SS CANTRCVMORE) { 
SO-»Sso error = ECONNABORTED; 
break; 
) 
if (error = tsleep((caddr t) & so-»so timeo, PSOCK | PCATCH, 
netcon, 0)) ( 
Splix(s); 
return (error); 


) 
if (so-»so error) ( 
error = so-»so error; 
SOo-»so error = 0; 
splxí(s); 
return (error); 
) 
if (error = falloc(p, &fp, retval)) ( 
splx(s); 
return (error); 


) 


( struct socket *aso = so-»so q; 


if (soqremque(aso, 1) -- 0) 
panic("accept"); 
SO - aso; 
) 
fp-»-f type = DTYPE SOCKET; 


fp-»f flag = FREAD | FWRITE; 
fp-»f ops = &socketops; 
fp-»-f data = (caddr t) so; 
nam - m get(M WAIT, MT SONAME); 
(void) soaccept(so, nam); 
if (uap-»name) ( 

if (namelen » nam-»m len) 

namelen - nam-»m len; 
/* SHOULD COPY OUT A CHAIN HERE */ 
if ((error - copyout(mtod(nam, caddr t), (caddr t) uap-»name, 
(u int) namelen)) -- 0) 


图 15-26 (£x) 
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143 error - copyout((caddr t) & namelen, 

174 (caddr t) uap-»anamelen, sizeof(*uap-»anamelen)); 
175 ) 

176 m freem(nam); 

ITI splx(s); 

178 return (error); 

179 ) 


uipc syscalls.c 
15-26 (£X) 


106-114 accept 有 三 个 参数 : s 为 插口 描述 符 ，name 为 缓存 指针 ，accept 将 把 外 部 主机 
的 运输 地 址 填 入 该 缓存 ，anamelen 是 一 个 保存 缓存 大 小 的 指针 。 

1. 验证 参数 
116-134 accept 将 缓存 大 小 (*anamelen) 赋 给 namelen，getsock 返 回 揪 口 的 Eile 结 
构 。 如 果 揪 口 还 设 有 准备 好 接收 连接 ( 即 ， 还 设 有 调用 1isten)， 或 已 经 请 求 了 非 阻 塞 的 IO， 
且 没 有 连接 被 送 入 队列 ， 则 分 别人 返回 EINVAL 或 EWOULDBLOCK。 

2. 等 待 连接 
135-145 当 出 现下 列 情况 时 ，while 循 环 退 出 : 有 一 条 连接 到 达 ， 出 现 差错 ， 插口 不 能 再 
接收 数据 。 当 信号 被 捕获 之 后 (tsleep 返 回 EBINTR)，accept 并 不 自动 重新 启动 。 当 协议 层 
通过 sonewconn 将 一 条 连接 插入 队列 后 ， 唤 醒 进 程 。 

在 循环 内 ， 进 程 在 tsleep 中 等 待 ， 当 有 连接 到 达 时 ，tsleep 返 回 0。 如 果 tsleep 被 信 
号 中 断 或 插口 被 设置 成 非 阻塞 ， 则 accept 返 回 EINTR 或 ENWOULDBLOCK( 图 15-25)。 

3. 异步 差错 
146-151 如 果 进 程 在 睡眠 期 间 出 现 差错 ， 则 将 插口 中 的 差错 代码 赋 给 accept 中 的 返回 码 ， 
清除 播 口中 的 差错 码 后 ，accept 返 回 。 

异步 事件 改变 揪 口 状态 是 比较 稼 见 的 。 协 议 处 理 层 通过 设置 so_errozr 或 唤醒 在 插口 上 
等 待 的 所 有 进程 来 通知 插口 层 插口 状态 的 改变 。 因 此 ， 插口 层 必须 在 每 次 被 唤醒 后 检查 
so_error， 查 看 是 否 在 进程 睡眠 期 间 有 差错 出 现 。 

4. 将 插口 同 描 述 符 相关 联 
152-164 falloc 为 新 的 连接 分 配 一 个 描述 符 ;， 调用 soqremque 将 插口 从 接收 队列 中 删 
除 ， 放 到 接 述 符 的 file 结 构 中 。 习 题 15.4 讨 论调 用 panic。 

5. 协议 处 理 
167-179 accept 分 配 一 个 新 的 mbuf 来 保存 外 部 地 址 ， 并 调用 soaccept 来 完成 协议 处 理 。 
在 连接 处 理 期 间 产 生 的 新 的 插口 的 分 配 和 排队 在 15.12 节 描述 。 如 果 进 程 提供 了 一 个 缓存 来 接 
收 外 部 地 址 ，copyout 将 地 址 和 地 址 长 度 分 别 从 nam 和 namelen 中 复制 给 进程 。 如 果 有 必要 ， 
copyout 还 可 能 将 地 址 截 掉 来 适应 进程 提供 的 缓存 大 小 。 最 后 ， 释 放 mbuf， 使 能 协议 处 理 ， 
accept;jh il, 

因为 仅仅 分 配 了 一 个 mbuf 来 存放 外 部 地 址 ， 运 输 地 址 必须 能 放 入 一 个 mbuf 中 。 因 为 Unix 
域 地 址 是 文件 系统 中 的 路 径 名 (最 长 可 达 1023 字 市 )， 所 以 要 受到 这 个 限制 ， 但 这 对 Internet 域 
中 的 16 字 市 长 的 sockaddr_in 地 址 没有 影响 。 第 170 行 的 注释 说 明 可 以 通过 分 配 和 复制 一 个 
mbuf 链 的 方式 来 去 掉 这 个 限制 。 


soaccepttf Zi 
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uipc socket.c 
184 soaccept(so, nam) 


185 struct socket *so; 
186 struct mbuf *nam; 


187 € 

188 int S = Ssplnet(); 

189 int error; 

190 if ((so-»so state & SS NOFDREF) == 0) 

191 panic("soaccept: !NOFDREF"); 

192 SO-»SO State &- "SS NOFDREF; 

193 error = (*so-»so proto-»pr usrreq) (so, PRU ACCEPT, 
194 (struct mbuf *) 0, nam, (struct mbuf *) 0); 
195 Splx(s); 

196 return (error); 

197 ) 


uipc socket.c 
图 15-27 soaccept Á% 


184-197 soaccept 确 保 插口 与 一 个 描述 符 相 连 ， 并 发 送 PRU_ACCEPT 请 求 给 协议 。 
pr_usrreq 返 回 后 ，nam 中 包含 外 部 插口 的 名 字 。 


15.12 sonewconn 和 soisconnected 了 函数 


从 图 15-26 中 可 以 看 出 ，accept 等 待 协 议 层 处 理 进 入 的 连接 请 求 ， 并 且 将 它们 放 入 so_q 
中 。 图 15-28 利 用 TCP 来 说 明 这 个 过 程 。 





等 待 进入 的 连接 请 求 


soaccept 
soqremque 





4 
Socket() d 





等 待 ACK 
进入 的 TCP SYN TCP 担 手 协议 的 最 后 一 个 ACK 


图 15-28 处 理 进 入 的 TCP 连 接 
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在 图 15-28 的 左上 角 ，accept 调 用 tsleep 等 待 进入 的 连接 。 在 左下 角 ，tcp_input 调 
用 sonewconn 为 新 的 连接 产生 一 个 插口 来 处 理 进 入 的 TCP SYN( 图 28-7)。sonewconn 将 产 
生 的 插口 放 入 so_q0 排 队 ， 因 为 三 次 握手 还 没有 完成 。 

当 TCP 提 和 手 协 议 的 最 后 一 个 ACK 到 达 时 ，tcp input 调 用 soisconnected( 图 29-2) 来 更 
新 产生 的 插口 ， 并 将 它 从 so_q0 中 移 到 so_q 中 ,唤醒 所 有 调用 accept 等 待 进入 的 连接 的 进程 。 

图 的 右上 角 说 明 我 们 在 图 15-26 中 描述 的 函数 。 当 tsleep 返 回 时 ，accept 从 so_q 中 得 
到 连接 ， 发 送 PRU_RATTRACH 请 求 。 揪 口 同 一 个 新 的 文件 拉 述 符 建 立 了 联系 ，accept 也 返回 
到 调用 进程 。 

图 1$-29 显 示 了 sonewconn 国 数 。 
123 struct socket * pe s 


124 sonewconn (head, connstatus) 
125 struct socket *head; 


126 int connstatus; 

ic^ wd 

128 struct socket *so; 

129 int soqueue = connstatus ? 1 : 0; 

130 if (head-»so qlen + head-»so qO0len > 3 * head-»so qlimit / 2) 
131 return ((struct socket *) 0); 

132 MALLOC (so, struct socket *, sizeof(*so), M SOCKET, M DONTWAIT); 
133 if (so -- NULL) 

134 return ((struct socket *) 0); 

135 bzero((caddr t) so, sizeof(í(*so)); 

136 SO-»SO type = head-»so type; 

137 SO-»SO Options = head-»so options & ^SO ACCEPTCONN; 

138 SO-»so linger = head-»so linger; 

139 SO-»SO State = head-»so state | SS NOFDREF; 

140 SO-»SO proto = head-»so proto; 

141 SO-»SO timeo = head-»so timeo; 

142 SO-»SO pgid = head-»so pgid; 

143 (void) soreserve(so, head-»so snd.sb hiwat, head-»so rcv.sb hiwat); 
144 soqinsque(head, so, soqueue); 

145 if ((*so-»so proto-»pr usrreq) (so, PRU ATTACH, 

146 (struct mbuf *) 0, (strüct sibuf *) 0, (struct mbuf *) 0)) 4 
147 (void) soqremque(so, soqueue); 

148 (void) free((caddr t) so, M SOCKET); 

149 return ((struct socket *) 0); 

150 ) 

151 if (connstatus) ( 

152 sorwakeup (head); 

153 wakeup((caddr t) & head-»so timeo); 

154 SO-»SO State |= connstatus; 

155 ) 

156 return (so); 

157 3 


uipc socket2.c 
图 1$-29 sonewconn pÁ% 
123-129 协议 层 将 nead( 指 向 正在 接收 连接 的 插口 的 指针 ) 和 connstatus( 指 示 新 连接 的 状 
态 的 标志 ) 传 给 sonewconn。 对 于 TCP 而 言 ，connstatus 总 是 等 于 0。 


对 于 TP4，connstatus 总 是 等 于 SS ISCONFIRMING。 当 一 个 进程 开始 从 桂 
口上 接收 或 发 送 数据 时 隐 式 地 证 实 了 连接 。 


£15* 4$ v Æ 371 





1. 限制 进入 的 连接 
130-131 当下 面 的 不 等 式 成 立时 ，sonewconn 不 再 接收 任何 连接 : 
3xso qlimit 
nr C 

这 个 不 等 式 为 一 直 没 有 完成 的 连接 提供 了 一 个 令 人 费解 的 因子 ， 且 该 不 等 式 确保 
1isten(fda，0) 人 允许 一 条 连接 。 有 关 这 个 不 等 式 的 详细 情况 请 参考 卷 1 的 图 18-23。 

2. 分 配 一 个 新 的 插口 
132-143 一 个 新 的 socket 结 构 被 分 配 和 初始 化 。 如 果 进 程 对 处 理 接 收 连接 状态 的 插口 调 
用 了 setsockopt， 则 新 产生 的 socket 继 承 好 几 个 插口 选项 ， 因 为 so_options、 
so linger, so pgidflsb _hiwat 的 值 被 复制 到 新 的 socket 结 构 中 。 

3. 排队 连接 
144 在 第 129 行 的 代码 中 ,根据 connstatus 的 值 设置 soqueue。 如 果 soqueue 为 0 (如 ， 
TCP 连 接 ), 则 将 新 的 插口 插入 so_q0 中 ; 若 connstatus 等 于 非 0 值 , 则 将 其 插入 so_q 中 (如 ， 
TP4 连 接 )。 

4. 协议 处 理 
145-150 发送 PRU_ATTACH 请 求 ， 启 动 协议 层 对 新 的 连接 的 处 理 。 如 果 处 理 失败 ， 则 将 插 
口 从 队列 中 删除 并 丢弃 ， 然 后 sonewconn 返 回 一 个 空 指针 。 

5. 唤醒 进程 
151-157 ”如果 connstatus 等 于 非 0 值 ， 所 有 在 accept 中 睡眠 或 查询 插口 的 可 读 性 的 进程 
均 被 唤醒 。connstatus 对 so_state 执 行 逻辑 或 操作 。TCP 协 议 从 来 不 会 执行 这 段 代 码 ， 
因为 对 TCP 而 言 ，connstatus 总 是 等 于 0。 

某 些 将 进入 的 连接 首先 插入 so_q0 队 列 中 的 协议 ， 如 TCP， 在 连接 建立 阶段 完成 时 调用 
soisconnected。 对 于 TCP， 当 第 二 个 SYN 被 应 答 时 ， 就 出 现 这 种 情况 。 

图 1$-30 显 示 了 soisconnected 的 代码 。 


so qlen-*so qOlen» 


kern[uipc socket2.c 


78 soisconnected(so) 
79 struct socket *so; 


80 ( 

81 struct socket *head - so-»so head; 

82 SO-»SO State &- ^(SS ISCONNECTING | SS ISDISCONNECTING | SS ISCONFIRMING); 
83 SO-»so state |= SS ISCONNECTED; 

84 if (head && soqremque(so, 0)) ( 

85 soqinsque (head, so, 1); 

86 sorwakeup (head); 

87 wakeup((caddr t) & head-»so timeo); 
88 ) else ( 

89 wakeup((caddr t) & so-»so timeo); 
90 sorwakeup(so); 

91 sowwakeup(so); 

92 ) 

93 ] 


kern/uipc socket2.c 
[]15-30 soisconnectedrK7& 


6. 排队 未 完成 的 连接 
78-87 通过 修改 插口 的 状态 来 表明 连接 已 经 完成 。 当 对 进入 的 连接 调用 soisconnected 
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( 即 ， 本 地 进程 正在 调用 accept) 时 ，head 为 非 空 。 

如 有 果 soqremdque 返 回 1， 就 将 插口 放 和 so_q 排 队 ，sorwakeup 唤 醒 那 些 通过 调用 
select 测 试 插 口 的 可 读 性 来 监控 插口 上 连接 到 达 的 进程 。 如 果 进 程 在 accept 中 因 等 待 连接 
而 阻塞 ， 则 wakeup 使 得 相应 的 tsleep 返 回 。 

7. 唤醒 等 待 新 连接 的 进程 
88-93 如 果 head 为 空 ， 就 不 需要 调用 soqremque， 因 为 进程 用 connect 系 统 调用 初始 化 
连接 ， 且 插口 不 在 队列 中 。 如 果 head 非 空 ， 且 soqremque 返 回 0， 则 插口 已 经 在 so_q 队 列 
中 。 在 某 些 协 议 如 TP4 中 就 出 现 这 种 情况 ， 因 为 在 TP4 中 ， 连 接 完成 之 前 就 已 插入 so_q 队 列 
中 。wakeup 唤 醒 所 有 阻塞 在 connect 中 的 进程 ，sorwakeup 和 sowwakeup 和 负责 唤醒 那些 
调用 select 等 竺 连接 完成 的 进程 。 


15.13 connect% FE 


服务 器 进程 调用 1isten 和 accept 系 统 调用 等 待 远 程 进程 初始 化 连接 。 如 果 进 程 想 自己 
初始 化 一 条 连接 ( 即 客户 端 )， 则 调用 connect。 

对 于 面向 连接 的 协议 如 TCP，connect 建 立 一 条 与 指定 的 外 部 地 址 的 连接 。 如 果 进 程 没 
有 调用 bind 来 绑 定 地 址 ， 则 内 核 选 择 并 且 隐 式 地 绑 定 一 个 地 址 到 插口 。 

对 于 无 连接 协议 如 UDP 或 ICMP，connect 记 录 外 部 地 址 ， 以 便 发 送 数据 报时 使 用 。 任 何 
以 前 的 外 部 地 址 均 被 新 的 地 址 所 代替 。 

图 15-31 显 示 了 UDP 或 TCP 调 用 connect 了 时 涉及 的 函数 。 






PRU_CONNECT 请 求 





PRU. CONNECT 请 求 






TCP 连 接 建立 
图 15-31 connect 处 理 过 程 
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图 的 左边 说 明 connect 如 何 处 理 无 连接 协议 ， 如 UDP。 在 这 种 情况 下 ， 协 议 层 调用 
soisconnected 后 connect 系 统 调用 立即 返回 。 

图 的 右边 说 明 connect 如 何 处 理 面向 连接 的 协议 ， 如 TCP。 在 这 种 情况 下 ， 协 议 层 开始 
建立 连接 ， 调用 soisconnecting 指 示 连 接 将 在 某 个 时 候 完成 。 如 果 插 口 是 非 阻塞 的 ， 
soconnect 调 用 tsleep 等 待 连接 完成 。 对 于 TCP， 当 三 次 握手 完成 时 ， 协 议 层 调用 
soisconnected 将 插口 标识 为 已 连接 ， 然 后 调用 wakeup 唤 醒 等 待 的 进程 ， 从 而 完成 
connect 系 统 调 用 。 

图 15-32 列 出 了 connect 系 统 调 用 的 代码 。 


uipc syscalls.c 
180 struct connect, args { 


181 int S; 

182 caddr t name; 
183 int namelen; 
184 ); 


185 connect(p, uap, retval) 
186 struct proc *p; 
187 struct connect args *uap; 


188 int *retval; 

189 ( 

190 struct file *fp; 

191 struct socket *so; 

192 struct mbuf *nam; 

193 int error, S; 

194 if (error = getsock(p-»p fd, uap-»s, &fp)) 

195 return (error); 

196 SO = (struct socket *) fp-»f data; 

197 if ((so-»so state & SS NBIO) && (so-»so state & SS, ISCONNECTING)) 
198 return (EALREADY); 

199 if (error = sockargs(&nam, uap-»name, uap-»namelen, MT SONAME)) 
200 return (error); 

201 error = soconnect(so, nam); 

202 if (error) 

203 goto bad; 

204 if ((so-»so state & SS NBIO) && (so-»so state & SS ISCONNECTING)) { 
205 m freem(nam); 

206 return (EINPROGRESS); 

207 ) 

208 s = splnet(); 

209 while ((so-»so state & SS ISCONNECTING) && so-»so error == 0) 
210 if (error = tsleep((caddr t) & so-»so timeo, PSOCK | PCATCH, 
211 netcon, 0)) 

212 break; 

213 if (error == 0) 4 

214 error = So-»so error; 

215 SOo-»so error = 0; 

216 ) 

217 splx (s); 

218 bad: 

219 so->so_state &= ^SS ISCONNECTING; 

220 m freem(nam); 

221 if (error == ERESTART) 

222 error - EINTR; 

223 return (error); 

224 ) 


uipc syscalls.c 
15-32. connect 系统 调用 
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180-188 connect 的 三 个 参数 (在 connect args 结 构 中 ) 是 ，s 为 插口 描述 符 ，name 是 一 
个 指针 ， 指 向 存放 外 部 地 址 的 缓存 ，name1len 为 缓存 的 长 度 。 
189-200 getsock 获 取 插 口 描述 符 对 应 的 Eile 结 构 。 可 能 已 有 连接 请 求 在 非 阻 塞 的 插口 
上 ， 若 出 现 这 种 情况 ， 则 返回 EALREADY。 函 数 sockargs 将 外 部 地 址 从 进程 复制 到 内 核 。 

1. 开始 连接 处 理 
201-208 连接 是 从 调用 soconnect 开 始 的 。 如 果 soconnect 报 告 差错 出 现 ，connect 跳 
转 到 bada。 如 果 soconnect 返 回 时 连接 还 没有 完成 且 使 能 了 非 阻塞 的 IO ， 则 立即 返回 
EINPROGRESS 以 免 等 待 连接 完成 。 因 为 通常 情况 下 ， 建 立 连 接 要 涉及 同 远 程 系统 交换 几 个 
分 组 ， 因 而 这 个 过 程 可 能 需要 一 些 时 间 才 能 完成 。 如 果 连 接 没 完成 ， 则 下 次 对 connect 调 用 
就 返回 EALREADY。 当 连接 完成 时 ，soconnect 返 回 EISCONN。 

2. 等 待 连接 建立 
208-217 while 循环 直到 连接 已 建立 或 出 现 差错 时 才 退 出 。splnet 防 止 connect 在 测试 
插口 状态 和 调用 tsleep 之 间 错 过 wakeup。 人 循环 完成 后 ，error 包 含 0、tsleep 中 的 差错 代 
码 或 插口 中 的 差错 代码 。 
218-224 ”清除 SS_ISCONNECTING 标 志 ， 因 为 连接 已 完成 或 连接 请 求 已 失败 。 释 放 存 储 外 
部 地 址 的 mbuf， 返 回 差 错 代码 。 


15.13.1 soconnectr? Zi 


soconnect 函 数 确保 插口 处 于 正确 的 连接 状态 。 如 果 插 口 没有 连接 或 连接 没有 被 挂 起 ， 
则 连接 请 求 总 是 正确 的 。 如 果 揪 口 已 经 连接 或 连接 正 等 待 处 理 ， 则 新 的 连接 请 求 将 被 面 癌 连 
接 的 协议 (如 TCP) 拒 绝 。 对 于 无 连接 协议 ， 如 UDP， 多 个 连接 是 允许 的 ， 但 是 每 一 个 新 的 请 求 
中 的 外 部 地 址 会 取代 原来 的 外 部 地 址 。 
图 1$-33 列 出 了 soconnect 国 数 的 代码 。 
198 soconnect(so, nam) 


199 struct socket *so; 
200 struct mbuf *nam; 


uipc socket.c 


201 ( 

202 int S; 

203 int error; 

204 if (so-»so options & SO ACCEPTCONN) 

205 return (EOPNOTSUPD); 

206 S = Ssplnet(); 

207 y* 

208 * If protocol is connection-based, can only connect once. 
209 * Otherwise, if connected, try to disconnect first. 

210 * This allows user to disconnect by connecting to, e.g., 
2411 * a null address. 

212 *:/ 

213 if (so-»so state & (SS ISCONNECTED | SS ISCONNECTING) && 
214 ((so-»so proto-»pr flags & PR CONNREQUIRED) || 

215 (error - sodisconnect(so)))) 

216 error - EISCONN; 

217 else 

218 error - (*so-»so proto-»pr usrreq) (so, BRU CONNECT, 
219 (struct mbuf *) 0, nam, (struct mbuf *) 0): 
220 Splxí(s); 

221 return (error); 

222 } 


uipc_socket.c 
15-33 soconnect Á 
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198-222 如果 揪 口 被 标识 为 准备 接收 连接 ， 则 soconnect 返 回 EOPNOTSUPP， 因 为 如 果 
已 经 对 插口 调用 了 1isten， 则 进程 不 能 再 初始 化 连接 。 如 果 协 议 是 面向 连接 的 ， 且 一 条 连接 
已 经 被 初始 化 ， 则 返回 EISCONN。 对 于 无 连接 协议 ， 任何 已 有 的 同 外 部 地 址 的 联系 都 被 
sodisconnect 切 断 。 


PRU_CONNECT 请 求 启动 相应 的 协议 处 理 来 建立 连接 或 关联 。 
15.13.2 切断 无 连接 插口 和 外 部 地 址 的 关联 


对 于 无 连接 协议 ， 可 以 通过 调用 connect， 并 传 入 一 个 不 正确 的 name 参 数 ， 如 指向 内 容 
为 全 0 的 结构 指针 或 大 小 不 对 的 结构 ， 来 丢弃 同 插口 相关 联 的 外 部 地 址 。sodisconnect 删 
除 同 插口 相关 联 的 外 部 地 址 ，PRU CONNECT 返 回 差 错 代 码 ， 如 EAFNOSUPPORT 或 
ERDDRNOTRVRAIL ， 留 下 没有 外 部 地 址 的 插口 。 这 种 方式 虽然 有 点 星 塑 ， 但 却 是 一 种 比较 有 
用 的 断 连 方式 ， 在 无 连接 插口 和 外 部 地 址 之 间断 连 ， 而 不 是 替换 。 


15.14 shutdown 系 统 调用 


shutdown 系 统 调用 关闭 连接 的 读 通道 、 写 通道 或 读 写 通道 ， 如 图 15-34 所 示 。 对 于 读 通 
道 ，shutdown 丢 弃 所 有 进程 还 没有 读 走 的 数据 以 及 调用 shutdown 之 后 到 达 的 数据 。 对 于 
写 通道 ，shut downi 上 协议 做 相应 的 处 理 。 对 于 TCP， 所 有 剩余 的 数据 将 被 发 送 ， 发 送 完 成 
后 发 送 FIN。 这 就 是 TCP 的 半 关 闭 特 点 (参考 卷 1 的 18.5 市 )。 


uipc syscalls.c 
550 struct shutdown args ( 


851 int S; 
552 int how; 
553 ); 


554 shutdown (p, uap, retval) 
555 struct proc *p; 
556 struct shutdown_args *uap; 


557 int *retval; 

558 1 

559 struct file *fp; 

560 int error; 

561 if (error - getsock(p-»p fd, uap-»s, &fp)) 

562 return (error); 

563 return (soshutdown((struct socket *) fp-»f data, uap-»how)); 
564 ) 


uipc syscalls.c 
图 15-34 shutdown Z tis HH 


为 了 删除 插口 和 释放 描述 符 ， 必 须 调用 close。 可 以 在 没有 调用 shutdown 的 情况 下 直 
接 调 用 close。 同 所 有 描述 符 一 样 ， 当 进程 结束 时 ， 内 核 将 调用 close， 关 闭 所 有 还 没有 被 
关闭 的 插口 。 
550-557 在 shutdown args 结 构 中 ，s 为 插口 描述 符 ，how 指 明 关 闭 连 接 的 方式 。 图 15-35 
列 出 了 how 和 how++( 在 图 15-36 中 用 到 ) 的 期 望 值 。 
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FREAD 关闭 连接 的 读 通道 


FWRITE 关闭 连接 的 写 通道 
FREAD | FWRITE 关闭 连接 的 读 写 通道 





15-35 shutqdown 系 统 调 用 选项 


注意 ， 在 how 和 常数 FREAD、FWRITE 之 间 有 一 种 隐 含 的 数值 关系 ， 


558-564 shutdown 是 图 数 soshutdown 的 包装 国 数 (wrapper function)。 由 getsock 返 回 
与 描述 符 相 关联 的 插口 ， 调 用 soshutdown， 并 返回 其 值 。 


soshutdownýlsorflush ži 


关闭 连接 的 读 通 道 是 由 插口 层 调 用 sorflush 处 理 的 ， 写 通道 的 关闭 是 由 协议 层 的 
PRU_SHUTDOWNN 请 求 处 理 的 。soshutdaown 国 数 如 图 1$-36 所 示 。 


uipc socket.c 
720 soshutdown(so, how) 
721 struct socket *so; 
J22 ant how; 
723 € 
724 struct protosw *pr - so-»so proto; 
725 how++; 
726 if (how & FREAD) 
PEE sorflush(so); 
728 if (how & FWRITE) 
729 return ((*pr-»pr usrreqd) (so, PRU SHUTDOWN, 
730 (struct mbuf *) O0, (struct mbuf *) 0; (struct mbuf *) 0)); 
34 return (0); 
TAM. ) : 
uipc socket.c 


[15-36 soshutdownrK 7 


720-732 如果 是 关闭 插口 的 读 通 道 ， 则 sorf1lush 丢 弃 插 口 接收 缓存 中 的 数据 ， 禁 止 读 连 
接 ( 如 图 15-37 所 示 )。 如 果 是 关闭 插口 的 写 通 道 ， 则 给 协议 发 送 PRU_SHUTDOWN 请 求 。 
733-747 进程 等 待 给 接收 缓存 加 锁 。 因 为 SB_NOINTR 被 设置 ， 所 以 当中 断 出 现时 ， 
sblock 并 不 返回 。 在 修改 插口 状态 时 ，splimp 阻 塞 网 络 中 断 和 协议 处 理 ， 因 为 协议 层 在 接 
收 到 进入 的 分 组 时 可 能 要 访问 接收 缓存 。 

socantrcvmore 标 识 插口 拒绝 接收 进入 的 分 组 。 将 sockbuf 结 构 保 存在 asb 中 ， 当 
splx 恢 复 中 断后 ， 要 使 用 asb。 调 用 bzero 清 除 原始 的 sockbuf 结 构 ， 使 得 接收 队列 为 空 。 

释放 控制 mbuf 
748-751 当 shutdown 被 调用 时 ， 存 储 在 接收 队列 中 的 控制 信息 可 能 引用 了 一 些 内 核资 源 。 
通过 sockbuf 结 构 的 副本 中 的 sb_mb 仍 然 可 以 访问 mbuf 链 。 

如 果 协 议 支 持 访问 权限 ， 且 注册 了 一 个 Gom_dispose 函 数 ， 则 调用 该 函数 来 释放 这 些 资 源 。 

在 Unix 域 中 ， 用 控制 报 文 在 进程 间 传 递 描 述 符 是 可 能 的 。 这 些 报 文 包含 一 些 引 

用 计数 的 数据 结构 的 指针 。dom aispose 函 数 负 责 去 掉 这 些 引用 ， 如 果 必 要 ， 还 释 

放 相 关 的 数据 缓存 以 避免 产生 一 些 未 引用 的 结构 和 导致 内 存 泄 漏 。 有 关 在 Unix 域 内 

传递 文件 描述 符 的 细节 请 参考 [Stevens 1990] 和 [Leffler et al. 1989], 
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uipc socket.c 
733 sorflush(so) 
734 struct socket *so; 
735 [f 
736 struct sockbuf *sb - &so-»so rcv; 
737 struct protosw *pr = so-»so proto; 
738 int S; 
739 struct sockbuf asb; 
740 sb-»sb flags |= SB NOINTR; 
741 (void) sblock(sb, M WAITOK); 
742 S = Ssplimp(); 
743 socantrcvmore (so); 
744 sbunlock (sb); 
745 asp = *sb; 
746 bzero((caddr t) sb, sizeof(*sb)); 
747 splx(s); 
748 if (pr-»pr flags & PR RIGHTS && pr-»pr. domain-»dom dispose) 
749 (*pr-»pr domain-»dom dispose) (asb.sb mb); 
750 sbrelease(&asb); 
ESL F} 
uipc_socket.c 


[15-37 sorflush p% 


"MsbreleasefU lic p yir B BER mbuflt, EAMA VIHshutdownl vb A Ah 
的 数据 。 

注意 ， 连 接 的 读 通 道 的 关闭 完全 由 插口 层 来 处 理 ( 习 题 15.6)， 连 接 的 写 通 道 的 关闭 通过 发 
送 PRU_SHUTDOWN 请 求 交 由 协议 处 理 。TCP 协 议 收 到 PRU_SHUTDOWN 请 求 后 ， 发 送 所 有 排队 
的 数据 ， 然 后 发 送 一 个 FIN 来 关闭 TCP 连 接 的 写 通 道 。 


15.15 close 系 统 调 用 


close 系 统 调 用 能 用 来 关闭 各 类 描述 符 。 当 fd 是 引用 对 和 象 的 最 后 的 描述 符 时 ， 与 对 和 象 有 
关 的 close 图 数 被 调用 : 


error = (*fp->f ops->fo close) (fp,p); 


如 图 15-13 所 示 ， 插 口 的 fp->f ops-»fo close 是 soo close 国 数 。 
15.15.1 soo _ close 函数 


soo_close 畏 数 是 soclose 国 数 的 封装 右 ， 如 图 1$-38 所 示 。 


sys socket.c 
152 soo close(fp, p) 
153 strucb Iile *fb5: 
154 struct proc “p; 
155 41 
156 int error = 0; 
157 if (fp-»f data) 
158 error = soclose((struct socket *) fp-»f data); 
159 fp-»f data = 0; 
160 return (error); 
pii, sys_socket.c 


[15-38 soo close fk% 
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152-161 如 果 socket 结 构 与 file 相 关联 ， 则 调用 soclose， 清除 f_data， 返回 已 出 现 
的 差错 。 


15.15.2 soclose 了 函数 


soclose 函 数 取 消 插 口上 所 有 未 完成 的 连接 ( 即 ， 还 没有 完全 被 进程 接受 的 连接 )， 等 待 
数据 被 传输 到 外 部 系统 ， 释 放 不 需要 的 数据 结构 。 
soclose 国 数 的 代码 如 图 15-39 所 示 。 


uipc socket.c 

129 soclose(so) 

130 struct socket *so; 

131 { 

132 int S = Ssplnet(); /* conservative */ 

133 int error - 0; 

134 if (so-»so options & SO ACCEPTCONN) { 

135 while (so-»so qO0) 

136 (void) soabort(so-»so. q0); 

137 while (so-»so. q) 

138 (void) soabort(so-»so q); 

139 ) 

140 if (so-»so pcb -- 0) 

141 goto discard; 

142 if (so-»so state & SS ISCONNECTED) { 

143 if ((so-»so state & SS ISDISCONNECTING) == 0) { 

144 error - sodisconnect(so); 

145 if (error) 

146 goto drop; 

147 ) 

148 if (so-»so options & SO LINGER) ( 

149 if ((so-»so state & SS ISDISCONNECTING) && 

150 (SO-»SO State & SS, NBIO)) 

151 goto drop; 

152 while (so-»so state & SS, ISCONNECTED) 

153 if (error - tsleep((caddr t) & so-»so timeo, 

154 PSOCK | PCATCH, netcls, so-»so linger)) 

155 break; 

156 ) 

157 ) 

158 drop: 

159 if (so-»so pcb) { 

160 int . error2 - 

161 (*so-»so proto-»pr usrreq) (so, PRU. DETACH, 

162 (struct mbuf *) 0, (struct mbuf *) 0, (struct mbuf *) 0); 

163 if (error zz 0) 

164 error = error2; 

165 ) 

166 discard: 

167 if (so-»so state & SS NOFDREF) 

168 panic("soclose: NOFDREF"); 

169 SOo-»so state |= SS, NOFDREF; 

170 sofree(so); 

171 splx(s); 

T72 return (error); 

CIS 3 à 
uipc_socket.c 


图 1$-39 soclose t 
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1. 丢弃 未 完成 的 连接 
129-141 如 果 插 口 正 在 接受 连接 ，soclose 遍 历 两 个 连接 队列 ， 并 且 调 用 soabort 取 消 每 
一 个 挂 起 的 连接 。 如 果 协 议 控 制 块 为 空 ， 则 协议 已 同 插 口 分 离 ，soclose 跳 转 到 discard 进 
行 退出 处 理 。 
soabortAiÉPRU RARBORT 请 求 给 插口 的 协议 ， 并 返回 结果 。 本 书 中 没有 介绍 
soabort 的 代码 。 图 23-38 和 图 30-7 讨 论 了 UDP 和 TCP 如 何 处 理 PRU _ABORT 请 求 。 


2. 断 开 已 建立 的 连接 或 关联 
142-157 如 果 插 口 没 有 同 任何 外 部 地 址 相连 接 ， 则 跳 转 到 drop 处 继续 执行 。 否 则 ， 必 须 
断 开 插 口 与 对 等 地 址 之 则 的 连接 。 如 果断 连 没 有 开始 ， 则 sodisconnect 启 动 断 连 进程 。 
如 果 设 置 了 SO_LINGER 插 口 选项 ，soclose 可 能 要 等 到 断 连 完成 后 才 返 回 。 对 于 一 个 非 阻 
塞 的 插口 ， 从 来 不 需要 等 待 断 连 完成 ， 所 以 在 这 种 情况 下 ，soclose 立 即 跳 转 到 drop。 否 
则 ， 连 接 终止 正在 进行 且 SO_LINGER 选 项 指示 soclose 必 须 等 待 一 段 时 间 才 能 完成 操作 。 
直到 出 现下 列 情况 时 while 才 退出 : 断 连 完成 ， 拖 延 时 间 (so_1l1inger) 到 ;进程 收 到 了 一 
个 信和 号。 

如 果 灌 留 时 间 被 设 为 0，tsleep 仅 当 断 连 完 成 (也 许 因 为 一 个 差错 ) 或 收 到 一 个 信 

号 时 才 返 回 。 

3. 释放 数据 结构 
158-173 如 琳 插 口 仍然 同 协 议 相 关联 ， 则 发 送 PRU_DETACH 请 求 断 开 插 口 与 协议 的 联系 。 
最 后 ， 插 口 被 标记 为 同 任何 描述 符 没 有 关联 ， 这 意味 着 可 以 调用 sofree 释 放 插 口 。 

sofzree 国 数 代 码 如 图 1$-40 所 示 。 


uipc socket.c ' 
110 sofree(so) 


111 struct socket *so; 


112 1 
1233 if (so-»so pcb || (so-»so state & SS NOFDREF) == 0) 
114 return; 
115 if (so-»so head) { 
116 if (!soqremque(so, 0) && !soqremque(so, 1)) 
117 panic("sofree dq"); 
118 so-»so head = 0; 
119 ) 
120 sbrelease(&so-»so, snd) ; 
121 sorflush(so); 
122 FREE(so, M SOCKET); 
123 ] : 
uipc socket.c 
图 15-40 sofreer&7 
4. 如 果 插 口 仍 在 用 则 返回 


110-114 如 果 仍 然 有 协议 同 插口 相关 联 ， 或 如 果 插 口 仍然 同 描述 符 相 关联 ， 则 sofree 立 
即 返回 。 

S. 从 连接 队列 中 删除 插口 
115-119 如果 插口 仍 在 连接 队列 上 (so_head 非 空 )， 则 插口 的 队列 应 该 为 空 。 如 果 不 空 ， 
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则 播 口 代码 和 内 核 panic 中 有 差错 。 如 果 队 列 为 空 ， 清 除 so_head。 

6. 释放 发 送 和 接收 队列 中 的 缓存 
120-123 sorelease 释 放 发 送 队 列 中 的 所 有 缓存 , sorflush 释 放 接 收 队 列 中 的 所 有 缓存 。 
最 后 ， 释 放 插 口 本 身 。 


15.16 


小 结 


本 章 中 我 们 讨论 了 所 有 与 网 络 操作 有 关 的 系统 调用 。 描 述 了 系统 调用 机 制 ， 并 且 跟 踪 系 
统 调用 直到 它们 通过 pr_usrreq 函 数 进入 协议 处 理 层 。 

在 讨论 插口 层 时 ， 我 们 避免 涉及 地 址 格式 、 协 议 语义 或 协议 实现 等 丫 题 。 在 接 下 来 的 间 
方 中 ， 我 们 将 通过 协议 处 理 层 中 的 Internet 协 议 的 实现 将 链 路 层 处 理 和 插口 层 处 理 联系 在 一 起 。 


2] iei 
15.1 
15.2 


13.3 


15.4 
15.3 
15.6 


一 个 没有 超级 用 户 权 限 的 进程 怎样 才能 获取 对 超级 用 户 进程 产生 的 插口 的 访问 权 ? 

一 个 进程 怎样 才能 判断 它 提 供给 accept 的 sockaddr 缓 存 是 不 是 太 小 以 致 不 能 存 
放 调 用 返回 的 外 部 地 址 ? 

IPV6 的 插口 有 一 个 特点 : 使 accept 和 recvfrom 返 回 一 个 128 位 的 IPv6 地 址 的 数组 
作为 源 路 由 ， 而 不 是 仅 返 回 一 个 对 等 地 址 。 因 为 数组 不 能 存放 在 一 个 mbuf 中 ， 所 以 
修改 accept 和 recvfrom， 使 得 它们 能 够 处 理 协议 层 来 的 mbuf 链 而 不 是 仅仅 一 个 
mbuf。 如 果 协 议 在 mbuf 徐 中 返回 一 个 数组 而 不 是 一 个 mbuf 链 ， 已 有 的 代码 仍然 能 
正常 工作 吗 ? 

为 什么 在 图 15-26 中 当 soqremque 返 回 一 个 空 指针 时 要 调用 panic? 

为 什么 sorflush 要 复制 接收 缓存 ? 

在 sorflush 将 插口 的 接收 缓存 清 0 后 ， 如 果 还 有 数据 到 达 会 出 现 什么 现象 ?在 做 这 
个 习题 之 前 请 阅读 第 16 章 的 内 容 。 


251625 插 O IO 


16.1 引言 


本 章 讨 论 有 关 从 网 络 连接 上 读 写 数据 的 系统 调用 ， 分 三 部 分 介绍 。 

第 一 部 分 介绍 四 个 用 来 发 送 数据 的 系统 调用 : write, writev, sendtoflsendmsg, € 
二 部 分 介绍 四 个 用 来 接收 数据 的 系统 调用 : read、readv、recvfrom 和 recvmsg。 第 三 部 分 
介绍 select 系 统 调用 ，select 调 用 的 作用 是 监控 通用 描述 符 和 特殊 描述 符 (插口 ) 的 状态 。 

插口 层 的 核心 是 两 个 函数 : sosend 和 soreceive。 这 两 个 函数 负责 处 理 所 有 插口 层 和 
协议 层 之 则 的 VO 操作 。 在 后 续 的 章节 中 我 们 将 看 到 ， 因 为 这 两 个 函数 要 处 理 插口 层 和 各 种 类 
型 的 协议 之 间 的 VO 操作 ， 使 得 这 两 个 函数 特别 长 和 复杂 


16.2 代码 介绍 
图 16-1 中 列 出 了 本 章 后 续 章 节 要 用 到 的 三 个 头 文件 和 四 个 C 源 文件 。 
sys/socket.h 插口 API 中 的 结构 和 宏 定 义 


sys/socketvar.h socket 结 构 和 宏 定 义 
sys/uio.h uio 结 构 定义 


kern/uipc syscalls.c socket 系 统 调 用 
kern/uipc socket.c 揪 口 层 处 理 
kern/sys generic.c select 系 统 调用 
kern/sys socket.c select 对 插口 的 处 理 





16-1 本 章 涉 及 的 头 文件 和 C 源 文件 


全 局 变量 
16-2 列 出 了 三 个 全 局 变量 。 前 两 个 变量 由 select 系 统 调 用 使 用 ， 第 三 个 变量 控制 分 配 
给 插口 的 存储 器 大 小 。 


-—— 


| aelwSiE — select 调 用 的 等 待 通道 
nselcoll 
sb max u y 


避免 select 调 用 中 出 现 竞争 的 标志 
图 16-2 本 章 涉 及 的 全 局 变量 
















插口 发 送 或 接收 缓存 的 最 大 字 市 数 





16.3 插口 缓存 
从 第 15.3 节 我 们 已 经 知道 ， 每 一 个 插口 都 有 一 个 发 送 缓存 和 一 个 接收 缓存 。 缓 存 的 类 型 为 
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sockbuf。 图 16-3 中 列 出 了 sockbuf 结 构 的 定义 (重复 图 15-5)。 


socketvar.h 
72 struct sockbuf { 
73 u,long sb. cc; /* actual chars in buffer */ 
74 u long sb hiwat; /* max actual char count */ 
75 u long sb mbcnt; /* chars of mbufs used */ 
76 u long sb mbmax; /* max chars of mbufs to use */ 
77 long sb lowat; /* low water mark */ 
78 struct mbuf *sb mb; /* the mbuf chain */ 
79 struct selinfo sb sel; /* process selecting read/write */ 
80 short sb flags; /* Figure 16.5 */ 
81 short sb timeo; /* timeout for read/write */ 
82 ) So.rcv, só snd; 
socketvar.h 





图 16-3 sockbuf 结 构 


72-78 每 一 个 缓存 均 包 含 控制 信息 和 指 加 存储 数据 的 mbuf 链 的 指针 。sb_mb 指 癌 mbuf 链 的 
第 一 个 mbuf，sb_cc 的 值 等 于 存储 在 mbuf 链 中 的 数据 字 节 数 。sb_hiwat 和 sb_ lowat 用 来 
调整 插口 的 流 控 算法 。sb_mbcnt 等 于 分 配给 缓存 中 的 所 有 mbuf 的 存储 器 数量 。 

在 前 面 的 章 市 中 提 到 过 每 一 个 mbuf 可 存储 0~2048 个 字 布 的 数据 (如 果 使 用 了 外 部 簇 )。 
sb_mbmax 是 分 配给 插口 mbuf 缓 存 的 存储 器 数量 的 上 限 。 默 认 的 上 限 在 socket 系 统 调 用 中 发 送 
PRU_ATTACH 请 求 时 由 协议 设置 。 只 要 内 核 要 求 的 每 个 插口 缓存 的 大 小 不 超过 262,144 个 字 市 
的 限制 (sp_max)， 进 程 就 可 以 修改 缓存 的 上 限 和 下 限 。 流 控 算 法 将 在 16.4 市 和 16.8 市 中 讨论 。 
图 16-4 显 示 了 Internet 协 议 的 默认 设置 。 


2xsb hiwat 





图 16-4 ”Internet 协 议 的 默认 的 插口 缓存 限制 


因为 每 一 个 进入 的 UDP 报 文 的 源 地 址 同 数据 一 起 排队 ， 所 以 UDP 协 议 的 sb_hiwat 的 点 
认 值 设置 为 能 容纳 40 个 1K 字 节 长 的 数据 报 和 相应 的 sockadar_in 结 构 (每 个 16 字 节 )。 
79 sb sel 是 一 个 用 来 实现 select 系 统 调用 的 selinfo 结 构 (16.13 证 )。 
80 图 16-5 列 出 了 sb_flags 的 所 有 可 能 的 值 。 


sb-flags 


SB LOCK 一 个 进程 已 经 锁定 了 插口 缓存 
SB_WANT 一 个 进程 正在 等 待 给 插口 缓存 加 锁 
SB_WAIT 一 个 进程 正在 等 待 接收 数据 或 发 送 数据 所 需 的 缓存 


SB_SEL 一 个 或 多 个 进程 正在 选择 这 个 缓存 
SB_ASYNC 为 这 个 缓存 产生 异步 WO 信号 
SB_NOINTR 言 号 不 取消 加 锁 请 求 


SB NOTIFY (SB WAIT|SB AEL|SB ASYNC) i 
一 个 进程 正在 等 待 缓存 的 变化 ， 如 果 缓 存 发 生 任 何 改变 ， 用 wakeup 通 知 该 进程 


图 16-5 sb flags 的 值 
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81-82 sb timeo 用 来 限制 一 个 进程 在 读 写 调用 中 被 阻塞 的 时 间 ， 单 位 为 时 钟 滴 答 (tick)。 
默认 值 为 0， 表 示 进 程 无 限期 的 等 待 。SO_SNDTIMEO 和 SO_RCVTIMEO 捅 口 选 项 可 以 改变 或 
读 取 sb timeo 的 值 。 

插口 宏和 函数 


有 许多 安 和 函数 用 来 管理 插口 的 发 送 和 接收 缓存 。 图 16-6 中 列 出 了 与 缓存 加 锁 和 同步 有 
A BIZ ERU 


sbunlock 释放 加 在 sb 上 的 锁 。 所 有 等 待 给 sb 加 锁 的 进程 被 唤醒 
Dainu void sbunlock (struct sockbuf *sb), 

sbwait 调用 tsleep 等 待 b 上 的 协议 动作 。 返 回 tsleep 返 回 的 结果 
pem int sbwait(struct sockbuf *sb), 


通知 插口 有 协议 动作 出 现 。 唤 醒 所 有 匹配 的 调用 sbwait 的 进程 或 在 sb 上 调用 tsleep 的 
进程 


void sowakeup(struct socket *sb, struct sockbuf *sb),; 
唤醒 等 待 ‰% 上 的 读 事件 的 进程 ， 如 果 进 程 请 求 了 IO 事件 的 异步 通知 ， 则 还 应 给 该 进程 发 
送 SIGIO 信 号 
图 16-7 显 示 了 设置 插口 资源 限制 、 往 缓存 中 写 数据 和 从 缓存 中 删除 数据 的 宏和 函数 。 在 
该 表 中 ，m、m0、n 和 control 都 是 指向 mbuf 链 的 指针 。sb 指 癌 插 口 的 发 送 或 接收 缓存 。 


void sorwakeup(struct socket *sb);, 

















申请 给 sb 加 锁 ， 如 果 wf 等 于 M_WAITOK， 则 进程 睡眠 等 待 加 锁 ， 否 则 ， 如 果 不 能 立即 给 
缓存 加 锁 ， 就 返回 EWOULDBLOCK。 如 果 进 程 睡眠 被 一 个 信号 中 断 ， 则 返回 EINTR 或 
ERESTART， 否则 返回 0 


int sblock(struct sockbuf *sb, int wf); 



































图 16-6 与 缓存 加 锁 和 同步 有 关 的 宏和 函数 



















sb 中 可 用 的 空间 ( 字 市 数 ) : 


min(sb hiwat - sb cc), (sb mbmax - sb mbcont) 












long sbspace(struct sockbuf *sb);, 
将 m 加 到 sb 中 ， 同 时 修改 sb 中 的 sb_cc 和 sb mboent 


void sballoc(struct sockbuf *sb, struct mbuf *m) 3 


唤醒 等 待 b 上 的 写 事件 的 进程 ， 如 果 进 程 请 求 了 I/O 事 件 的 异步 通知 ， 则 还 应 给 该 进程 发 
送 SIGIO 信 和 号 
void sowwakeup(struct socket *sb); 
sbfree 从 bp 中 删除 关 ， 同 时 修改 sb 中 的 sb cc 和 sb mbcnt 
int sbfree(struct sockbuf *sb, struct mbuf *m);, 
sbappend 将 m 中 的 mbuf 加 到 sb 的 最 后 面 
int sbappend(struct sockbuf *sb, struct mbuf *m); 
将 m0 中 的 记录 加 到 sb 的 最 后 面 。 调 用 sbcompress 




























int sbappendrecord(struct sockbuf *sb, struct mbuf *m0); 





图 16-7 与 插口 缓存 分 配 与 操作 有 关 的 宏和 函数 
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sbappendaddr 将 asa 的 地 址 放 入 一 个 mbuf。 将 地 址 、contro! 和 m0 连接 成 一 个 mbuf 链 ， 并 将 该 
链 放 在 sb 的 最 后 面 
int abappendaddr(struct *sb, struct sockaddr *asa, 
struct mbuf *mÜÓ, struct mbuf *control); 
sbappendcontrol 将 contro1 和 m0 连接 成 一 个 mbuf 链 ， 并 将 该 链 放 在 sb 的 最 后 面 
int abappendcontrol(struct *sb, struct mbuf *m0, 
struct mbuf *control); 
sbinsertoob 将 m0 插 在 没有 带 外 数据 的 sb 的 第 一 个 记录 的 前 面 
pm int abinsertoob(struct sockbuf *sb, struct mbuf *m0);, 


sbcompress 将 m 合 并 到 n 中 并 压缩 没 用 的 空间 
void abcompress(struct sockbuf *sb, struct mbuf *m, 
struct mbuf *n); 


sbdrop 删除 sb 的 前 len 个 字 节 
bus KR void sbdrop (struct sockbuf *sb, int len); 
sbdroprecord 删除 sb 的 第 一 个 记录 ， 将 下 一 个 记录 移 作 第 一 个 记录 
onl void sbdroprecord(struct sockbuf *sb); 
sbrelease 调用 sbflush 释 放 sb 中 所 有 的 mbuf。 并 将 sb_hiwat 和 sb mbmax 清 0 
p— d void sbrelease(struct sockbuf *sb); 
sbflush 释放 sb 中 的 所 有 mbuf 
一 eco 


soreserve 设置 插口 缓存 高 、 低 水 位 标记 (high-water and low-water mark), 。 对 
于 发 送 缓存 ， 调 用 sbreserve 并 传人 参数 sndcc。 对 于 接收 缓存 ， 调 用 
sbreserve 并 传人 参数 rcvcc。 将 发 送 缓存 和 接收 缓存 的 sb_1lowat 初 始 化 成 默 
认 值 (图 16-4)。 如 果 超 过 系统 限制 ， 则 返回 ENOBUFS 


int soreserve(struct socket *so, int sndcc, int rcvcc); 


sbreserve 将 sb 的 高 水 位 标记 设置 成 cc。 同 时 将 低 水 位 标记 降 到 cc。 本 函数 不 分 配 存储 器 
int sbreserve(struct sockbuf *sb, int cc); 


图 16-7 ( 续 ) 





16.4 write、writev、sendto 和 sendmsg 系 统 调 用 


我 们 将 write、writev、sendto 和 sendmsg 四 个 系统 调用 统称 为 写 系 统 调 用 ， 它 们 的 
作用 是 往 网 络 连 接 上 发 送 数 据 。 相 对 于 最 一 般 的 调用 sendmsg 而 言 ， 前 三 个 系统 调用 是 比较 
简单 的 接口 。 

所 有 的 写 系 统 调用 都 要 直接 或 间接 地 调用 sosend。sosend 的 功能 是 将 进程 来 的 数据 复 
制 到 内 核 ， 并 将 数据 传递 给 与 插口 相关 的 协议 。 图 16-8 给 出 了 sosend 的 工作 流程 。 

在 下 面 的 章节 中 ， 我 们 将 讨论 图 16-8 中 人 带 阴 影 的 图 数 。 其 余 的 四 个 系统 调用 和 
soo write 留 给 读者 目 己 去 了 解 。 

图 16-9 说 明了 这 四 个 系统 调用 和 一 个 相关 的 库 国 数 (send) 的 特点 。 

在 Net/3 中 ，send 被 实现 成 一 个 调用 sendto 的 库 函 数 。 为 了 与 以 前 编译 的 程序 

二 进 制 兼容 ， 内 核 将 旧 的 send 调 用 映射 成 函数 osend,. 该 函数 不 在 本 书 中 讨论 。 


从 图 16-9 的 第 二 栏 中 可 以 看 出 ，write 和 writev 系 统 调用 适用 于 任何 描述 符 ， 而 其 他 的 
系统 调用 只 适用 于 插口 描述 符 。 | 
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库 函 数 


通过 pr_usrreq 发 送 的 i 
PRU SEND 或 PRU SENDOOB 


图 16-8 所 有 的 插口 输出 均 由 sosend 处 理 





write 任何 类 型 | 


writev 任何 类 型 
send 插口 
sendto 插口 
sendmsg 插口 





图 16-9 写 系统 调用 


从 图 16-9 的 第 三 栏 中 可 以 看 出 ，writev 和 sendmsg 系 统 调用 可 以 接收 从 多 个 缓存 中 来 
的 数据 。 从 多 个 缓存 中 写 数据 称 为 收集 (gathering)， 同 它 相 对 应 的 读 操作 称 为 分 散 
(scattering)。 执 行 收集 操作 上 时， 内核 按 序 接收 类 型 为 ovec 的 数组 中 指定 的 缓存 中 的 数 
据 。 数 组 最 多 有 UIO_MAXIOV 个 单元 。 图 16-10 显 示 了 类 型 iovec 的 结构 。 


: uio.h 
41 struct iovec { 
42 char *iov. base; /* Base address */ 
43 size t iov len; /* Length */ 
44 ); 3 
uio.h 


图 16-10 iovec 结 构 


41-44 在 图 16-10 中 ，iov base 指 向 长 度 为 ov len 个 字 节 的 缓存 的 开始 
如 宁 疫 有 这 种 接口 ， _ 个 进程 将 不 得 不 将 多 个 缓存 复制 到 一 个 大 的 缓存 中 ， 或 调用 多 个 
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写 系统 调用 来 发 送 从 多 个 缓存 来 的 数据 。 相 对 于 用 一 个 系统 调用 传送 类 型 为 iovec 的 数组 ， 
这 两 种 方法 的 效率 更 低 。 对 于 数据 报 协议 而 言 ， 调 用 一 次 writev 就 是 发 送 一 个 数据 报 ， 数 据 
报 的 发 送 不 能 用 多 个 写 动作 来 实现 。 

图 16-11 说 明了 iovec 结 构 在 wzitev 系 统 调用 中 的 应 用 ， 图 中 iovp 指 向 数组 的 第 一 个 元 
素 ，iovcnt 等 于 数组 的 大 小 。 


iovp 


iovcnt -1 





iov. len 











$ Lp 


iov. base 


: ^6 A £u " dE à t 
ÜMiovcnt-] | 














liovcnt-1 x 节 n 


图 16-11 writev 系 统 调用 中 的 iovec 参 数 


数据 报 协议 要 求 每 一 个 写 调用 必须 指定 一 个 目的 地 址 。 因 为 write、writev 和 send 调 
用 接口 不 支持 对 目的 地 址 的 指定 ， 因 此 这 些 调 用 只 能 在 调用 connect 将 目的 地 址 同一 个 无 连 
接 的 插口 联系 起 来 后 才能 被 调用 。 调 用 sendto 或 sendmsg 时 必须 提供 目的 地 址 ， 或 在 调用 


它们 之 前 调用 connect 来 指定 目的 地 址 。 


图 16-9 的 第 五 栏 显示 send xxx 系 统 调用 接收 一 个 可 选 的 控制 标志 ， 这 些 标志 在 图 16-12 中 


定义 。 








MSG DONTROUTE 


MSG DONTWAIT 
MSG_EOR 
MSG OOB 


发 送 本 报 文 时 ， 不 查 路 由 表 
发 送 本 报 文 时 ， 不 等 待 资源 
标志 一 个 逻辑 记录 的 结束 
发 送 带 外 数据 





16-23 
16-22 
图 16-25 
图 16-26 


图 16-12 send xxx 系 统 调 用 : flags 值 


如 图 16-9 的 最 后 一 栏 所 示 ， 只 有 sendmsg 系 统 调 用 支持 控制 信息 。 控 制 信息 和 另外 几 个 
参数 是 通过 结构 msghdr( 图 16-13) 一 次 传递 给 sendmsg， 而 不 是 分 别传 递 。 


socket.h 
228 struct msghdr { 
229 caddr t msg name; /* optional address */ 
230 u int msg namelen; /* size of address */ 
231 struct iovec *msg iov; /* scatter/gather array */ 
232 u int msg iovlen; /* # elements in msg iov */ 
243 caddr t msg control; /* ancillary data, see below */ 
234 u. int msg. controllen; /* ancillary data buffer len */ 
235 int msg flags; /* Figure 16.33 *J/ 
236 ) 
socket.h 


16-13 msghdr 结 构 


msg_name 应 该 被 说 明成 一 个 指向 sockaddr 结 构 的 指针 ， 因 为 它 包 含 网 络 地 址 。 


228-236 msghdr 结 构 包 含 一 个 目的 地 址 (msg_ name 和 msg namelen)、 一 个 分 散 / 收 集 数 
组 (msg iov 和 msg iovlen)、 控 制 信息 (msg_control 和 msg _controllen) 和 接收 标志 


£16€* 4$ v IO 387 


(msg flags)。 控 制 信息 的 类 型 为 cmsghdaz 结 构 ， 如 图 16-14 所 示 。 


socket.h 
251 struct cmsghar ( 
252 u, int cmsg len; /* data byte count, including hdr */ 
253 int cmsg. level; /* originating protocol */ 
254 int cmsg. type; /* protocol-specific type */ 
255 /* followed by u_char  cmsg data[]; */ 
256 ]; 
socket.h 


图 16-14 cmsghdr 结 构 


251-256 插口 层 并 不 解释 控制 信息 ， 但 是 报 文 的 类 型 被 置 为 cmsg_type， 且 报 文 长 度 为 
cmsg_len。 多 个 控制 报 文 可 能 出 现在 控制 信息 缓存 中 。 


ap 


一 一 


图 16-15 说 明了 在 调用 sendmsg 时 msghdaz 的 结构 。 


msg namelen-—— — — ——3» 





msghdrí() 


msg name 
msg namelen 
nsg iov RRS 


3 iov_len iov_base p e—ÀÀ M 
| 
|» —] — — d Rn 


ME— — — — n5 —————— 


[emsg-len | cmsg-ievel | cnootype | dm | 


msg controllen——————— — — — — — — — — — 9» 


图 16-15 ” sendmsg 系 统 调 用 的 msghdr 结 构 


16.5 sendmsg 系 统 调 用 


只 有 通过 sendmsg 系 统 调用 才能 访问 到 与 插口 API 的 输出 有 关 的 所 有 功能 。sendmsg 和 
sendit 函 数 准 备 sosend 系 统 调 用 所 需 的 数据 结构 ， 然 后 由 sosend 调 用 将 报 文 发 送 给 相应 
的 协议 。 对 SocK_DGRRAM 协 议 而 言 ， 报 文 就 是 数据 报 。 对 SOCK_STRERM 协 议 而 言 ， 报 文 古 
一 申 字 节 流 。 对 于 SOCK_SEQPACKET 协 议 而 言 ， 报 文 可 能 是 一 个 完整 的 记录 ( 隐 含 的 记录 边 
界 ) 或 一 个 大 的 记录 的 一 部 分 ( 显 式 的 记录 边界 )。 对 于 SOCK_PDM 协 议 而 言 ， 报 文 总 是 一 个 完 
整 的 记录 ( 隐 含 的 记录 边界 )。 

即使 一 般 的 sosend 代 码 处 理 SOCK SEQPACKET 和 SOCK_PDK 协 议 , 但 是 在 

Internet 域 中 没有 这 样 的 协议 。 

图 16-16 显 示 了 sendmsg 系 统 调 用 的 产 代码 。 

307-319 sendmsg 有 三 个 参数 : 插口 描述 符 ， 指 向 msghar 结 构 的 指针 ， 儿 个 控制 标志 。 
函数 copyin 将 msghdr 结 构 从 用 户 空 间 复制 到 内 核 。 
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307 struct sendmsg args ( 


308 
309 
310 
SLE j* 


int 8; 
caddr t msg; 
int flags; 


312 sendmsg(p, uap, retval) 
113 struct proc *p; 
314 struct sendmsg args *uap; 


uipc syscalls.c 


sizeof (msg))) 


.msg iovlen, 


M IOV, 


(unsigned) (msg.msg iovlen * sizeof(struct iovec))))) 


315 int *retval; 
316 ( 
317 struct msghdr msg; 
318 struct iovec aiov[UIO SMALLIOV], *iov; 
319 int error; 
320 if (error - copyin(uap-»msg, (caddr t) & msg, 
321 return (error); 
322 if ((u int) msg.msg iovlen >= UIO SMALLIOV) ( 
323 if ((u int) msg.msg iovlen »- UIO MAXIOV) 
324 return (EMSGSIZE); 
325 MALLOC(iov, struct iovec *, 
326 sizeof(struct iovec) * (u int) msg 
32 M WAITOK); 
328 ) else 
329 iov - aiov; 
330 if (msg.msg iovlen && 
331 (error - copyin((caddr t) msg.msg iov, (caddr t) iov, 
332 
333 goto done; 
334 msg.msg iov - iov; 
335 error = sendit(p, uap-»s, &msg, uap-»flags, retval); 
336 done: 
337 if (iov !- aiov) 
338 FREE(iov, M IOV); 
339 return (error); 
340 ) 
图 16-16 sendmsg 系 统 调用 
1. 复制 iov 数 组 
320-334 


uipc syscalls.c 


一 个 有 8 个 元 素 (UIO_SMALLIOV) 的 iovec 数 组 从 栈 中 自动 分 配 。 如 果 分 配 的 数 
组 不 够 大 ，sendmsg 将 调用 MALLOC 分 配 更 大 的 数组 。 如 果 进 程 指定 的 数组 单元 大 于 
1024(UIO MAXIOV)， 则 返回 EMSGSIZE。copyin 将 jovec 数 组 从 用 户 空间 复制 到 栈 中 的 数 
组 或 一 个 更 大 的 动态 分 配 的 数组 中 。 
这 种 技术 避免 了 调用 mal1loc 带 来 的 高 代价 ， 因 为 大 多 数 情况 下 ， 数 组 的 单元 数 
FETE, 
2. sendit 和 清除 缓存 
335-340 如 条 sendit 返 回 ， 则 表明 数据 已 经 发 送 给 相应 的 协议 或 出 现 差错 。sendmsg 释 
放 iovec 数 组 (如 果 它 是 动态 分 配 的 ), 并 且 返 回 sendit 调 用 返回 的 结果 。 


16.6 senditt?zZr 


sendit Á% Æt sendtofisendamsg HMAK KAŽ. senditi — uio t, 
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将 控制 和 地 址 信息 从 进程 空间 复制 到 内 核 。 在 讨论 sosend 之 前 ， 我 们 必须 先 解释 uiomove 
函数 和 uio 结 构 。 


16.6.1 uiomovetf Zi 


uiomove KZ B Jm 7e J: 

int uiomove(caddr t cp, int n, struct uio *uio); 

uiomove 函 数 的 功能 是 在 由 cp 指向 的 缓存 与 4io 指 问 的 类 型 为 iovec 的 数组 中 的 多 个 缓存 之 
间 传 送 z 个 字 节 。 图 16-17 说 明了 uio 结 构 的 定义 ， 该 结构 控制 和 记录 uiomove 的 行为 。 


uio.h 
45 enum uio rw { 
46 UIO READ, UIO WRITE 
47 ); 
48 enum uio seg ( /* Segment flag values */ 
49 UIO USERSPACE, /* from user data space */ 
50 UIO, SYSSPACE, /* from system space */ 
51 UIO USERISPACE /* from user instruction space */ 
52 J? 
53 struct uio {í 
54 struct iovec *uio. iov; /* an array of iovec structures */ 
55 int uio iovcnt; /* size of iovec array */ 
56 otf t uio offset; /* starting position of transfer */ 
57 int uio resid; /* remaining bytes to transfer */ 
58 enum uio seg uio segflg; /* location of buffers */ 
59 enum uio rw uio rw; /* direction of transfer */ 
60 struct proc *uio. procp; /* the associated process */ 
61 Jj; 

uio.h 


图 16-17 uio 结 构 


45-61 在 uio 结 构 中 ，uio iov 指 癌 类 型 为 ovec 结 构 的 数组 ，uio offset 记 也 
uiomove 传 送 的 字 节 数 ，uio_resid 记 录 剩 余 的 字 节 数 。 每 次 调用 uiomove， 
uio offsetJÉJIn, uio resid 减 去 n。 同 时 ，uiomove 根 据 传送 的 字 市 数 调整 uio iov 
数组 中 的 基 指 针 和 缓存 长 度 ， 从 而 从 缓存 中 删除 每 次 调用 时 传送 的 字 节 。 最 后 ， 每 当 从 
uio_iov 中 传送 一 块 缓存 ，uio_iov 数 组 的 每 个 单元 就 癌 前 进 一 个 数组 单元 。uio_segf1g 
指向 uio_iov 数 组 的 基 指 针 指 向 的 缓存 的 位 置 。uio_rw 指 定数 据 传送 的 方向 。 缓 存 可 能 在 
用 户 数 据 空间 ， 用 户 指 令 空 间或 内 核 数 据 空间 。 图 16-18 对 uiomove 函 数 的 操作 进行 了 小 结 。 
图 中 对 操作 的 描述 用 到 了 uiomove 函 数 原型 中 的 参数 名 。 


UIO-READ | 从 内 核 缓存 cp 中 分 散 n 个 字 节 到 进程 缓存 


| UIO USERISPACE | 
EE 从 内 核 缓存 cp 中 分 散 n 个 字 节 到 多 个 内 核 缓存 
从 多 个 内 核 缓存 中 收集 n 个 字 节 到 内 核 缓存 cp 中 


从 进程 绥 存 中 收集 5 个 字 节 到 内 核 组 存 cp 





图 16-18 uiomove 操 作 
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16.6.2 举例 


图 16-19 显 示 了 一 个 调用 uiomove 之 前 的 uio 结 构 。 


[e ————————— uio, resid ———————— 


[wiodovemt B | —m | — o 
[wiooffst o | m | ë 
UIO USERSPACE 

UIO WRITE 

-------- > 进程 


cp 


K 16-19 调用 uiomove 前 的 uio 结 构 


uio_iov 指 向 ijovec 数 组 的 第 一 个 单元 。iov_base 指 针 数 组 的 每 一 个 单元 分 别 指向 它 
们 在 进程 地 址 空间 中 的 缓存 的 起 始 地 址 。uio_offset 等 于 0，uio_resid 等 于 三 块 缓存 的 
总 的 大 小 。cp 指 向 内 核 中 的 一 块 缓存 ， 一 般 来 说 ， 这 块 缓存 是 一 个 mbuf 的 数据 区 。 图 16-20 
显示 了 调用 uiomove 之 后 同一 个 uio 结 构 的 内 容 。 


uiomove(cp, n, uio); 


| 


io offset— — —«— — — uio resid — 





uro 
n | anl n 
| uio resid |(no+n +m)-n 
UIO USERSPACE 
UIO WRITE 
ES RM 


uio offset— — 





e 





图 16-20 调用 uiomove 后 的 uio 结 构 
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在 上 述 调用 中 ，n 包 括 第 一 块 缓存 中 的 所 有 字 节 和 第 二 块 缓存 中 的 部 分 字 市 ( 即 ， 
no<n<notni), 

调用 uiomove 后 ， 第 一 块 缓存 的 长 度 变 为 0， 且 它 的 基 指 针 指 同 缓 存 的 末 痕 。uio_iov 
现在 指向 iovec 数 组 的 下 一 个 单元 。 单 元 指针 也 前 进 了 一 个 单元 ， 长 度 也 减少 了 ， 减 少 的 字 
节 数 等 于 缓存 中 被 传送 的 字 节 数 。 同 时 ，uio_offset 增 加 了 n，uio_resid 减 少 了 n。 数 据 
已 经 从 进程 中 的 缓存 传送 到 内 核 缓存 ， 因 为 uio_rw 等 于 UIO_WRITE.。 


16.6.3 sendit 代 码 


现在 开始 计 论 sendit 的 代码 ， 如 图 16-21 所 示 。 

1. 初始 化 auio 
341-368 sendit 调 用 getsock 函 数 获 取 描 述 符 对 应 的 file 结 构 ， 初 始 化 uio 结 构 ， 并 将 
进程 指定 的 输出 缓存 中 的 数据 收集 到 内 核 缓存 中 。 传 送 的 数据 的 长 度 通过 一 个 for 人 循环 来 计 
算 ， 并 将 结果 保存 在 uio_resida。 循 环 内 的 第 一 个 if 保证 缓存 的 长 度 非 负 。 第 二 个 iE 保 证 
uio resid 不 溢出 ， 因 为 uio resid 是 一 个 有 符号 的 整数 ， 且 iov_len 要 求 非 负 。 

2. 从 进程 复制 地 址 和 控制 信息 
369-385 如果 进 程 提供 了 地 址 和 控制 信息 , 则 sockargs 将 地 址 和 控制 信息 复制 到 内 核 缓 
存 中 。 


ui scalls.c 
341 sendit (p, s, mp, flags, retsize) pc-5y 


342 struct proc *p; 


343 int S; 

344 struct msghdr *mp; 

345 int flags, *retsize; 

346 ( 

347 struct file *fp; 

348 struct uio auio; 

349 struct iovec *iov; 

350 int i3 

351 struct mbuf *to, *control; 

352 int len, error; 

353 if (error = getsock(p-»p.fd, s, &fp)) 

354 return (error); 

355 auio.uio iov - mp-»msg. iov; 

356 auio.uio, iovcnt = mp-»msg iovlen; 

357 auio.uio segflg = UIO USERSPACE; 

358 auio.uio rw - UIO WRITE; 

359 auio.uio.procp = p; 

360 auio.uio offset = 0; /* XXX */ 

361 auio.uio, resid = 0; 

362 iov - mp-»msg. iov; 

363 for (i = 0; i < mp-»msg iovlen; i++, iov++) ( 
364 if (iov-»iov len < O0) 

365 return (EINVAL); 

366 if ((auio.uio resid += iov-»iov len) < O0) 
367 return (EINVAL); 

368 ) 

369 if (mp-»msg name) { 

370 if (error = sockargs(&to, mp-»msg name, mp-»msg. namelen, 
371 MT SONAME)) 


图 16-21 sendit Kt 
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372 return (error); 
373 ) else 
374 CO = 0; 
375 if (mp-»msg control) ( 
376 if (mp-»msg controllen < sizeof(struct cmsghdr) 
377 ) 4 
378 error - EINVAL; 
379 goto bad; 
380 } 
381 if (error = sockargs (&control, mp-»msg. control, 
382 mp->msg_controllen, MT_CONTROL) ) 
383 goto bad; 
384 } else 
385 control = 04 
386 len - auio.uio resid; 
387 if (error = sosend((struct socket *) fp-»f, data, to, &auio, 
388 (struct mbuf *) 0, control, flags)) 1 
389 if (auio.uio, resid !- len && (error == ERESTART || 
390 error == EINTR || error == EWOULDBLOCK)) 
391 error z 0; 
392 if (error == EPIPE) 
393 psignal(p, SIGPIPE); 
394 ) 
395 if (error == 0) 
396 *retsize = len - auio.uio resigd; 
397 bad: 
398 if (to) 
399 m freem(to); 
400 return (error); 
401 ) 
uipc syscalls.c 
图 16-21 (£x) 
3. 发 送 数据 和 清除 缓存 


386-401 为 了 防止 sosend 不 接受 所 有 数据 而 无 法 计算 传送 的 字 节 数 ， 将 uio_residq 的 值 
保存 在 len 中 。 将 插口 、 目 的 地 址 、uio 结 构 、 控 制 信息 和 标志 全 部 传 给 冰 数 sosend。 当 
sosendjR|B/E, senditl[] ZH: 

* 如果 sosend 传 送 了 部 分 数据 后 ， 传 送 被 信号 或 阻塞 条 件 所 中 断 ， 差 错 被 丢弃 ， 报 千 传 
送 了 部 分 数据 。 

。 如果 sosend 返 回 EPIPE， 则 发 送信 号 SIGPIPE 给 进程 。error 设 置 成 非 0O， 所 以 如 采 
进程 捕捉 到 了 该 信号 ， 并 且 从 信号 处 理 程序 中 返回 ， 或 进程 忽略 信号 ， 写 调用 返回 
EPIPE, 

。 如 果 没 有 差错 出 现 ( 或 差错 被 丢弃 )， 则 计算 传送 的 字 节 数 ， 并 将 其 保存 在 *retsize 中 。 
如 果 senait 返 回 0，syscal1(15.4 节 ) 返 回 xzetsize 给 进程 而 不 是 返回 差错 代码 。 

。 如 果 任 何其 他 类 型 的 差错 出 现 ， 返 回 相 应 差错 代码 给 进程 。 

在 返回 之 前 ，sendit 释 放 包 含 目 的 地 址 的 缓存 。sosend 人 负责 释放 control 缓 存 。 


16.7 sosend ği 


sosend 是 插口 层 中 最 复杂 的 函数 之 一 。 在 图 16-8 中 已 提 到 过 所 有 五 个 写 系 统 调用 最 终 都 
要 调用 sosend。sosend 的 功能 就 是 : 根据 插口 指明 的 协议 支持 的 语义 和 缓存 的 限制 ， 将 数 
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据 和 控制 信息 传递 给 插口 指明 的 协议 的 pr _usrzreqg 国 数 。sosend 从 不 将 数据 放 在 发 送 缓存 
中 ;存储 和 移 走 数据 应 由 协议 来 完成 。 

sosend 对 发 送 缓 存 的 sb hiwat 和 sb lowat 值 的 解释 ， 取 决 于 对 应 的 协议 是 否 实现 可 
靠 或 不 可 靠 的 数据 传送 功能 。 


16.7.1 可 靠 的 协议 缓存 


对 于 提供 可 靠 的 数据 传送 协议 ， 发 送 缓存 保存 了 还 没有 发 送 的 数据 和 已 经 发 送 但 还 没有 
被 确认 的 数据 。sb_cc 等 于 发 送 缓存 的 数据 的 字 慷 数 , 且 0<sb_cc<sb_hiwat。 
如 果 有 带 外 数据 发 送 ， 则 sb_cc 有 可 能 暂时 超过 sb_hiwat。 


sosend 应 该 确保 在 通过 pz_usrred 国 数 将 数据 传递 给 协议 层 之 前 有 足够 的 发 送 缓存 。 
协议 层 将 数据 放 到 发 送 缓 在 中 。sosend 通 过 下 面 两 种 方式 之 一 将 数据 传送 给 协议 层 : 

。 如果 设置 了 PR_ATOMIC，sosend 就 必须 保护 进程 和 协议 层 之 间 的 边界 。 在 这 种 情况 
下 ，sosend 等 待 得 到 足够 的 缓存 来 存储 整个 报 文 。 当 获取 到 足够 的 缓存 后 ， 构 造 存储 
整个 报 文 的 mbuf 链 ， 并 用 pr_usrzreg 国 数 一 次 性 传送 给 协议 层 。RDP 和 SPP 就 是 这 种 
类 型 的 协议 。 

。 如 果 设 有 设置 PR_RATOMIC，sosendq 每 次 传送 一 个 存 有 报 文 的 mbuf 给 协议 ， 可 能 传送 
部 分 mbuf 给 协议 层 以 防止 超过 上 限 。 这 种 方法 在 SOCK_STREAM 类 协议 如 TCP 中 和 
SOCK_SEQPACKET 类 协议 如 TP4 中 被 采用 。 在 TP4 中 ， 记 录 边 界 通过 MSG_EOR 标 志 ( 图 
16-12) 来 显 式 指定 ， 所 以 sosend 没 有 必要 保护 报 文 边界 。 

TCP 应 用 程序 对 外 出 的 TCP 报 文 段 的 大 小 没有 控制 。 例 如 ， 在 TCP 插 口上 发 送 一 个 长 度 为 
4096 字 节 的 报 文 ， 假 定 发 送 缓存 中 有 足够 的 缓存 ， 则 插口 层 将 该 报 文 分 成 两 部 分 ， 每 一 部 分 
长 度 为 2048 个 字 节 ， 分 别 存 放 在 一 个 带 外 部 得 的 mbuf 中 。 然 后 ， 在 协议 处 理 时 ，TCP 将 根据 
连接 上 的 最 大 报 文 段 大 小 将 数据 分 段 ， 通 常情 况 下 ， 最 大 报 文 段 大 小 为 2048 个 字 证 。 

当 一 个 报 文 因为 太 大 而 没有 足够 的 缓存 时 ， 协 议 允 许 报 文 被 分 成 多 段 ， 但 sosend 仍 然 不 
将 数据 传送 给 协议 层 直到 缓存 中 的 闲置 空间 大 小 大 于 sb_1owat。 对 于 TCP 而 言 ，sb_1Lowat 
的 默认 值 为 2048 (图 16-4)， 从 而 阻止 插口 层 在 发 送 缓存 快 满 时 用 小 块 数据 干扰 TCP。 


16.7.2 不 可 靠 的 协议 缓存 


对 于 提供 不 可 靠 的 数据 传输 的 协议 (如 UDP) 而 言 ， 发 送 缓存 不 需 保 存 任何 数据 ， 也 不 等 待 
任何 确认 。 每 一 个 报 文 一 旦 被 排队 等 待 发 送 到 相应 的 网 络 设备 ， 播 口 层 立即 将 它 传送 到 协议 。 
在 这 种 情况 下 ，sb_cc 总 是 等 于 0，sb_hiwat 指 定 每 一 次 写 的 最 大 长 度 ， 间 接 指明 数据 报 的 
最 大 长 度 。 

图 16-4 显 示 了 UDP 协 议 的 sb_hiwat 的 默认 值 为 9216(9 x 1024)。 如 果 进 程 没 有 通过 
SO_SNDBUF 插 口 选 项 改变 sb_hiwat 的 值 , 则 发 送 长 度 大 于 9216 个 字 布 的 数据 报 将 导致 差错 。 
不 仅 如 此 ， 其 他 的 协议 限制 也 可 能 不 允许 一 个 进程 发 送 大 的 数据 报 报 文 。 卷 1 的 第 11.10 市 中 
已 讨论 了 在 其 他 的 TCP/IP 实 现 中 的 这 些 选 项 和 限制 。 

对 于 NFS 写 而 言 ，9216 已 足够 大 ，NFS 写 的 数据 加 上 协议 首部 的 长 度 一 般 默 认为 

8192 个 字 节 。 
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图 16-22 显 示 了 sosend 函 数 的 概况 。 下 面 分 别 讨论 图 中 四 个 带 阴 影 的 部 分 。 


- uipc_socket.c 
271 sosend(so, addr, uio, top, control, flags) 


272 struct socket *so; 
273 struct mbuf *addr; 
274 struct uio *uio; 

275 struct mbuf *top; 

276 struct mbuf *control; 
27T int flags; 

278 ( 


/* initialization (Figure 16.23) */  . 





305 restart: 


306 if (error - sblock(&so-»so snd, SBLOCKWAIT(flags))) 
307 goto out; 
308 do ( /* main loop, until resid -- 0 */ 


/* wait for space in send 










342 do { 
343 if (uio == NULL) ( 
344 f" 
345 * Data is prepackaged in "top". 
346 *J 
347 resid - 0; 
348 if (flags & MSG, EOR) 
349 top-»m flags |= M EOR; 
350 ) else 
351 do ( 
/* fill a single mbuf or an mbt 
396 ) while (space > 0 && atomic); 
/* pass mbuf chain to protoco] | (Figure 5.26) *7 or 
AE dS I eor ac quiu POMMES 
412 } while (resid && space > 0); 
413 ) while (resid); 
414 release: 
415 sbunlock(&so-»so snd); 
416 out. 
417 if (top) 
418 m freem(top); 
419 if (control) 
420 m freem(control); 
421 return (error); 
422 ) 


uipc socket.c 
图 16-22 sosendr&K Zt. 概述 
271-278 sosend 的 参数 有 如 下 几 个 : so， 指 向 相应 插口 的 指针 ;addr， 指 向 目的 地 址 的 


指针 ;，uio， 指 向 描述 用 户 空 间 的 IO 缓存 的 uio 结 构 ; top ， 保 存 将 要 发 送 的 数据 的 mbuf 
链 ; control, 保存 将 要 发 送 的 控制 信息 的 mbuf 链 ; Elags， 包 含 本 次 写 调 用 的 一 些 选项 。 
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正常 情况 下 ， 进 程 通过 uio 机 制 将 数据 提供 给 插口 层 ，top 为 空 。 当 内 核 本 身 正在 使 用 插 
口 层 时 (如 NFS)， 数 据 将 作为 一 个 mbuf 链 传送 给 sosend，top 指 癌 该 mbuf 链 ， 而 uio 为 空 。 
279-304 初始 化 代码 分 别 如 下 所 述 。 

1. 给 发 送 缓 存 加 锁 
305-308 sosend 的 主人 循环 从 restart 开 始 ， 在 循环 的 开始 调用 sblock 给 发 送 绿 存 加 锁 。 
通过 加 锁 确 保 多 个 进程 按 序 互 斥 访问 揪 口 缓存 。 

如 果 在 flags 中 MSG DONTWAIT 被 设置 ， 则 SBLOCKWAIT 将 返回 M NOWAIT。 
M_NOWAIT 告 知 sblock， 如 果 不 能 立即 加 锁 ， 则 返回 EWOULDBLOCK。 


MSG_DONTWRAIT 仅 用 于 Net3 中 的 NFS 。 


主 循环 直到 将 所 有 数据 都 传送 给 协议 ( 即 resid=0) 后 才 退 出 。 

2. 检查 空间 
309-341 在 传送 数据 给 协议 之 前 ， 需 要 对 各 种 差错 情况 进行 检查 ， 并 且 sosend 实 现 前 面 
讨论 的 流 挖 和 资源 控制 算法 。 如 果 sosend 阻 塞 等 待 输出 缓存 中 的 更 多 的 空间 ， 则 它 跳 回 
restart 等 待 。 

3. 使 用 top 中 的 数据 
342-350 一 旦 有 了 足够 的 空间 并 且 sosend 也 获得 了 发 送 缓存 上 的 锁 ， 则 准备 传送 给 协议 
的 数据 。 如 果 uio 等 于 空 ( 即 数据 在 top 指 向 的 mbuf 链 中 )， 则 sosend 检 查 MSG_EOR， 并 且 在 
链 中 设置 M_EOR 来 标志 远 辑 记录 的 结束 。mbuf 链 是 准备 发 送 给 协议 层 的 。 

4. 从 进程 复制 数据 
351-396 如 果 uio 不 空 , 则 sosend 必 须 从 进程 间 复 制 数据 。 当 PR_ATOMIC 被 设置 时 (例如 ， 
UDP)， 循 环 继续 ， 直 到 所 有 数据 都 被 复制 到 一 个 mbuf 链 中 。 当 sosendq 从 进程 得 到 所 有 数据 
后 ， 通 过 循环 中 的 break( 图 16-22 中 没有 显示 这 个 break) 跳 出 循环 。 跳 出 循环 后 ，sosend 
将 整个 数据 链 一 次 传送 给 相应 协议 。 

5. 传送 数据 给 协议 
395-414 对 于 PR_RATOMIC 协 议 ， 当 整个 数据 链 被 传送 给 协议 后 ，zresid 总 是 等 于 0， 并 且 
控制 跳出 两 个 循环 后 至 release 处 。 如 果 PR_ATOMIC 没 有 被 置 位 ， 且 当 还 有 数据 要 发 送 并 
有 缓存 空间 时 ， 则 sosendq 继 续 往 mbuf 中 写 数据 。 如 果 缓 存 中 设 有 了 闲置 空间 ， 但 仍然 有 数据 
要 发 送 ， 则 sosend 回 到 循环 开始 ， 等 待 闲置 空间 来 写 下 一 个 mbuf。 如 果 所 有 数据 都 发 送 完 ， 
则 两 个 循环 结束 。 

6. 释放 缓存 
414-422 当 所 有 数据 都 传送 给 协议 后 ， 给 插口 缓存 解锁 ， 释 放 多 余 的 mbuf 缓 存 ， 然 后 返回 。 

sosend 的 详细 情况 将 分 四 个 部 分 来 描述 : 

e 初始 化 (图 16-23)。 

* 差错 和 资源 检查 (图 16-24)。 

。 数据 传送 (图 16-25)。 

e 协议 处 理 (图 16-26)。 

sosend 的 第 一 部 分 初始 化 变量 ， 如 图 16-23 所 示 。- 

7. 计算 传送 大 小 和 语义 
279-284 如 果 sosendallatonce 等 于 true( 任 何 设置 了 PR_RATOMIC 的 协议 ) 或 数据 已 经 
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通过 top 中 的 mbuf 链 传送 给 sosend， 则 将 设置 atomic。 这 个 标志 控制 数据 是 作为 一 个 mbuf 
链 还 是 作为 多 个 独立 的 mbuf 传 送 给 协议 。 

285-297 LTesid 等 于 iovec 缓 存 中 的 数据 字 节 数 或 top 中 的 mbuf 链 中 的 数据 字 节 数 。 习 题 
16.1 讨 论 为 什么 resid 可 能 等 于 负数 的 问题 。 


uipc_socket.c 


279 struct proe *p = Ccurbproc; /* XXX */ 
280 struct mbuf **mp; 
281 struct mbuf *m; 
282 long Space, len, resid; 
283 int clen - 0, error, s, dontroute, mlen; 
284 int atomic = sosendallatonce(so) |l| top; 
285 if (uio) 
286 resid - uio-»uio resid; 
287 else 
288 resid - top-»m pkthdr.len; 
289 /* 
290 * In theory resid should be unsigned. 
291 * However, space must be signed, as it might be less than 0 
292 * if we over-committed, and we must use a signed comparison 
293 * of space and resid. on the other hand, a negative resid 
294 * causes us to loop sending 0-length segments to the protocol. 
295 bii 
296 if (resid < O0) 
297 return (EINVAL); 
298 dontroute - 
299 (flags & MSG, DONTROUTE) && (so-»so options & SO DONTROUTE) == 0 && 
300 (SO-»5SO proto-»pr flags & PR ATOMIC); 
301 p-»p stats-»p ru.ru msgsnd-«-; 
302 if (control) 
303 clen - control-»m len; 
304 $define snderr(errno) ( error = errno; splx(s); goto release; ) . 
MEE DIOC C (f c Ed n i 
图 16-23 sosendtRZt. 初始 化 
8. 关闭 路 由 


298-303 如果 仅仅 要 求 对 这 个 报 文 不 通过 路 由 表 进 行路 由 选择 ， 则 设置 aontzoute。 
clen 等 于 在 可 选 的 控制 缓存 中 的 字 市 数 。 
304 宏 snderr 传 送 差 错 代 码 ， 重 新 使 能 协议 处 理 ， 控 制 跳 转 到 out 执 行 解锁 和 释放 缓存 的 工 
作 。 这 个 宏 简 化 函数 内 的 差错 处 理工 作 。 

图 16-24 显 示 的 sosend 代 码 功能 是 检查 差错 条 件 和 等 待 发 送 缓存 中 的 闲置 空间 。 
309 当 检 查 差错 情况 时 ， 为 防止 缓存 发 生 改 变 ， 协 议 处 理 被 挂 起 。 在 每 一 次 数据 传送 之 前 ， 
sosend 要 检查 以 下 儿 种 差错 情况 : 
310-311 。 如 果 插 口 输出 被 禁止 ( 即 ，TCP 连 接 的 写 道 通 已 经 被 关闭 )， 则 返回 EPIPE。 
312-313 。 如 果 插 口 正 处 于 差错 状态 (例如 ， 前 一 个 数据 报 可 能 已 经 产生 了 一 个 ICMP 不 可 达 
的 差错 )， 则 返回 so_error。 如 果 差 错 出 现 之 前 数据 已 经 被 收 到 ， 则 sendit 忽 略 这 个 差错 
(图 16-21 的 第 389 行 )。 
314-318 。 如 果 协 议 请 求 连 接 且 连接 还 没有 建立 或 连接 请 求 还 没有 启动 , 则 返回 ENOTCONN。 
sosend 人 允许 只 有 控制 信息 但 没有 数据 的 写 操 作 ， 即 使 连接 还 没有 建立 。 

Internet 协 议 并 不 使 用 这 个 特点 ,但 TP4 用 它 在 连接 请 求 中 发 送 数 据 , 证 实 连接 请 
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求 ， 在 断 连 请 求 中 发 送 数 据 。 
319-321 。 如 果 在 无 连接 协议 中 设 有 指定 目的 地 址 (例如 ， 进 程 调用 send 但 并 没有 用 
connect 建 立 目 的 地 址 )， 则 返回 EDESTADDREQ。 


uipc socket.c 
309 S = Ssplnet(); 
310 if (so-»so state & SS CANTSENDMORE) 
311 snderr(EPIPE); 
312 if (so-»so error) 
313 snderr(so-»so error); 
314 if ((so-»so state & SS ISCONNECTED) == 0) ( 
313 if (so-»so proto-»pr flags & PR CONNREQUIRED) { 
316 if ((so-»so state & SS ISCONFIRMING) == 0 && 
317 ! (resid == 0 && clen !- 0)) 
318 snderr (ENOTCONN); 
319 ) else if (addr == 0) 
320 snderr (EDESTADDRREQ) ; 
321 } 
322 space - sbspace(&so-»so snd); 
343 if (flags & MSG. OOB) 
324 Space += 1024; 
325 if (atomic && resid > so-»so snd.sb hiwat || 
326 clen » so-»so snd.sb hiwat) 
327 snderr (EMSGSIZE); 
328 if (space < resid + clen && uio && 
329 (atomic || space < so-»so snd.sb lowat || space < clen)) { 
330 if (so-»so state & SS NBIO) 
331 snderr (EWOULDBLOCK); 
332 sbunlock (&so->so_snd); 
333 error = sbwait(&so-»so snd); 
334 splx(s); 
335 if (error) 
336 goto out; 
337 goto restart; 
338 ) 
339 splx(s); 
340 mp - &top; 
341 Space -- clen; 
uipc socket.c 


图 16-24 sosendq 国 数 : 差错 和 资源 检查 


9. 计算 可 用 空间 
322-324 sbspace 国 数 计算 发 送 缓存 中 剩余 的 朵 置 空间 字 节 数 。 这 是 一 个 基于 绥 存 高 水 位 
标记 的 管理 上 的 限制 ， 但 也 是 sb_mbmax 对 它 的 限制 ， 其 目的 是 为 了 防止 太 多 的 小 报 文 消 耗 
太 多 的 mbuf 缓 存 ( 图 16-6)。sosend 通 过 放宽 缓存 限制 到 1024 个 字 节 来 给 予 带 外 数据 更 高 的 优 
先 级 。 

10. 强制 实施 报 文 大 小 限制 
325-327 如 果 atomic 被 置 位 ， 并 且 报 文大 于 高 水 位 标记 (high-water mark)， 则 返回 
EMSGSIZE,; 报 文 因 为 太 大 而 不 被 协议 接受 ， 即 使 缓存 是 空 的 。 如 果 控 制 信息 的 长 度 大 于 高 
水 位 标记 ， 同 样 返回 EMSGSIZE。 这 是 限制 数据 或 记录 大 小 的 测试 代码 。 

11. 等 待 更 多 的 空间 吗 
328-329 如 果 发 送 缓存 中 的 空间 不 够 ， 数 据 来 源 于 进程 (而 不 是 来 源 于 内 核 中 的 top)， 并 且 
下 列 条 件 之 一 成 立 ， 则 sosend 必 须 等 待 更 多 的 空间 : 
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。 报 文 必 须 一 次 传送 给 协议 (atomic 为 真 )， 

。 报 文 可 以 分 段 传送 ， 但 闲置 空间 大 小 低 于 低 水 位 标记 ， 

。 报 文 可 以 分 段 传送 ， 但 可 用 空间 存放 不 下 控制 信息 。 

当 数 据 通 过 top 传 送 给 sosend ( 即 ，uio 为 空 ) 时 ， 数 据 已 经 在 mbuf 缓 存 中 。 因 此 ， 
sosend 忽 略 缓存 高 、 低 水 位 标记 限制 ， 因 为 不 需要 附加 的 缓存 来 保存 数据 。 

如 果 在 测试 中 ， 忽 略 发 送 缓存 的 低 水 位 标记 ， 在 插口 层 和 运输 层 之 则 将 出 现 一 种 有 趣 的 
交互 过 程 ， 它 将 导致 性 能 下 降 。[Crowcroft et al. 1992] 提 供 了 有 关 这 个 问题 的 详细 情况 。 

12. 等 待 空间 
330-338 如 果 sosend 必 须 等 待 缓存 且 揪 口 是 非 阻塞 的 ， 则 返回 BwWOULDBLOCK。 同 时 ， 缓 
存 锁 被 释放 ，sosenda 调 用 sbwait 等 待 ， 直 到 缓存 状态 发 生变 化 。 当 sbwait 返 回 后 ， 
sosend 重 新 使 能 协议 处 理 ， 并 且 跳 转 到 restart 获 取 缓 存 锁 ， 检 查 差错 和 缓存 空间 。 如 果 
条 件 满 足 ， 则 继续 执行 。 

默认 情况 下 ，sbwait 阻 塞 直 到 可 以 发 送 数据 。 通 过 So_SNDTIMEO 插 口 选 项 改变 缓存 中 
的 sb_ timeo， 进 程 可 以 设置 等 待 时 间 的 上 限 。 如 果 定 时 堪 超 时 ， 则 返回 ENWOULDBLOCK。 回 
想 一 下 图 16-21， 如 果 数 据 已 经 被 成 功 发 送 给 协议 ， 则 senait 忽 略 这 个 差错 。 这 个 定时 器 并 
不 限制 整个 调用 的 时 间 ， 而 仅仅 是 限制 写 两 个 nbuf 缓 存 之 间 的 不 活动 时 间 。 
339-341 在 这 点 上 ，sosend 已 经 知道 一 些 数据 已 传送 给 协议 。splx 使 能 中 断 ， 因 为 
sosend 从 进程 复制 数据 到 内 核 相 对 较 长 的 时 间 间 隔 内 不 应 该 被 阻塞 。mp 包 含 一 个 指针 ， 用 
来 构造 mbuf 链 。 在 sosend 从 进程 复制 任何 数据 之 前 ， 可 用 缓存 的 数量 需 减 去 控制 信息 的 大 
小 (clen)。 

图 16-25 显 示 了 sosend 从 进程 复制 数据 到 一 个 或 多 个 内 核 中 的 mbuf 中 的 代码 段 。 

13. 分 配 分 组 首部 或 标准 mbuf 
351-360 当 atomic 被 置 位 时 ， 这 段 代码 在 第 一 次 循环 时 分 配 一 个 分 组 首部 ， 随 后 分 配 标 
准 的 mbuf 缓 存 。 如 果 atomic 没 有 被 置 位 ， 则 这 段 代 码 总 是 分 配 一 个 分 组 首部 ， 因 为 进入 从 
环 之 前 ，top 总 是 被 清除 。 

14. Knj RE HIK 
361-371 nik XL 7HB—43xIBRHJ, JFHspaceX T SET 
MCLBYTES， 则 调用 MCLGET 分 配 一 个 徐 同 mbuf 连 在 一 起 。 当 space 小 于 MCLBYTES 时 ， 额 外 
的 2048 个 字 节 将 超过 缓存 分 配 限 制 ， 因 为 即使 resid 小 于 MCLBYTES， 整 个 徐 也 将 被 分 配 。 

如 果 调 用 MCLGET 失 败 ，sosend 跳 转 到 nopages， 用 一 个 标准 的 mbuf 代 赫 一 个 外 部 簇 。 


对 MINCLSIZE 的 测试 应 该 用 >， 而 不 是 之 ， 因 为 208(MINCLSIZE) 个 字 节 的 写 操 
作 只 适合 小 于 两 个 mbuf 的 情况 。 


如 果 atomic 被 设置 (例如 ，UDP)， 则 mbuf 链 表示 一 个 数据 报 或 记录 ， 并 且 在 第 一 个 族 的 
前 面 为 协议 首部 保留 max_hdr 个 字 布 。 而 后 续 的 敌 因 为 是 同一 条 链 的 一 部 分 ， 所 以 不 需要 再 
为 协议 首部 保留 空间 。 

如 果 atomic 没 有 被 置 位 (如 ，TCP)， 则 不 需要 保留 空间 ， 因 为 sosend 不 知道 协议 如 何 
将 发 送 的 数据 进行 分 段 。 

需要 注意 的 是 ，space 由 徐 大 小 (2048 个 字 节 ) 而 不 是 1en 来 决定 ，1en 等 于 放 在 禾 中 的 数 
据 的 字 贡 数 (习题 16-2)。 
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I UE uipc socket.c 
352 lf «top == 0) { 
353 MGETHDR(m, M WAIT, MT DATA); 
354 mlen - MHLEN; 
355 m-»m pkthdr.len - 0; 
356 m-»m pkthdr.rcvif = (struct ifnet *) 0; 
357 ) else ( 
358 MGET (m, M WAIT, MT DATA); 
359 mlen - MLEN; 
360 ) 
361 if (resid »- MINCLSIZE && space »- MCLBYTES) ( 
362 MCLGET (m, M WAIT); 
363 if ((m-»m flags & M EXT) == 0) 
364 goto nopages; 
365 mlen - MCLBYTES; 
366 if (atomic && top == 0) ( 
367 len - min(MCLBYTES - max hdr, resid); 
368 m-»m data += max hdr; 
369 ) else 
370 len - min(MCLBYTES, resid); 
371 space -- MCLBYTES; 
372 ) else ( 
343 nopages: 
374 len - min(min(mlen, resid), space); 
375 Space -- len; 
376 p 
377 * For datagram protocols, leave room 
378 * for protocol headers in first mbuf. 
379 wy 
380 if (atomic && top -- 0 && len < mlen) 
381 MH ALIGN(m, len); 
382 ) 
383 error - uiomove(mtod(m, caddr t), (int) len, uio); 
384 resid - uio-»uio resid; 
385 m-»m len - len; 
386 *mp - m; 
387 top-»m pkthdr.len += len; 
388 if (error) 
389 goto release; 
390 mp - &m-»m next; 
391 lif (resid <= 0) 14 
392 if (flags & MSG_EOR) 
393 top->m_flags |= M_EOR; 
394 break; 
395 } 
396 } while (space > 0 && atomic); , 
uipc_socket.c 
图 16-25 sosendrK 7k: 数据 传送 
15. 准备 mbuf 


372-382 如果 不用 徐 ， 存 储 在 mbuf 中 的 字 节 数 受 下 面 三 个 量 中 最 小 一 个 量 的 限制 : 
(1) mbuf 中 的 可 用 空间 ，(2) 报 文 的 字 节 数 ，(3) 缓存 的 空间 。 

如 采 atomic 被 置 位 ， 则 利用 MH_ALIGN 可 知 数 据 在 链 中 的 第 一 个 缓存 的 尾部 。 如 果 数 据 
占 居 整个 mbuf， 则 忽略 MH_ALIGN。 这 一 点 可 能 导致 没有 足够 的 空间 来 存放 协议 首部 ， 主 要 
取决 于 有 多 少数 据 存 放 在 mbuf 中 。 如 果 atomic 没 有 被 置 位 ， 则 没有 为 协议 首部 保留 空间 。 
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16. 从 进程 复制 数据 
383-395 uiomove 从 进程 复制 len 个 字 节 的 数据 到 mbuf。 传 送 完成 后 ， 更 新 mbuf 的 长 度 ， 
前 面 的 mbuf 连 接 到 新 的 mbuf( 或 top 指 同 第 一 个 mbuf)， 更 新 mbuf 链 的 长 度 。 如 果 在 传送 过 程 
中 发 生 差错 ， 则 sosend 跳 转 到 release。 

一 且 最 后 一 个 字 节 传送 完毕 ， 如 果 进 程 设 置 了 MSG_EOR， 则 设置 分 组 中 的 M_EOR， 然 后 
sosend 跳 出 循环 。 

MSG_EOR 仅 用 于 有 显 式 的 记录 边界 的 协议 ， 如 OSI 协议 族 中 的 TP4。TCP 不 支持 逻辑 记录 
因而 忽略 MSG_EOR 标 志 。 

17. 写 男 一 个 缓存 吗 
396 如 果 设 置 『atomic，sosend 回 到 循环 开始 ， 写 男 一 个 mbuf。 


对 space>0 的 测试 好 像 无 关 紧 要 。 当 atomic 没 有 被 设置 时 ，space 也 是 无 关 
紧要 的 ， 因 为 一 次 只 传送 一 个 mbuf 给 协议 。 如 果 设 置 了 atomic， 只 有 当 有 足够 的 缓 
存 空间 来 存放 整个 报 文 时 才 进 入 这 个 循环 。 套 考 习 题 16-2。 
sosend 的 最 后 一 段 代 码 的 功能 是 传送 数据 和 控制 mbuf 给 插口 指定 的 协议 ， 如 图 16-26 

所 示 。 


uipc socket.c 
397 if (dontroute) 
398 SO-»Sso options |= SO DONTROUTE; 
399 s = Ssplnet(); /* XXX */ 
400 error - (*so-»so proto-»pr usrreq) (so, 
401 (flags & MSG OOB) ? PRU SENDOOB : PRU SEND, 
402 top, addr, control); 
403 Splx(s); 
404 if (dontroute) 
405 SO-»Sso options &- ^SO DONTROUTE; 
406 élen = Us 
407 control, e 0: 
408 töp = 0y 
409 mp = &top; 
410 if (error) 
411 goto release; 
412 ) while (resid && space » 0); 
413 ) while (resid); : 

uipc socket.c 


图 16-26 sosendtK Zt: 协议 分 散 


397-405 在 传送 数据 到 协议 层 的 前 后 ， 可 能 通过 SO_DONTROUTE 选 项 选择 是 否 利用 路 由 表 
为 这 个 报 文 选择 路 由 。 这 是 唯一 的 一 个 针对 单个 报 文 的 选项 ， 如 图 16-23 所 示 ， 在 写 期 间 通 过 
MSG DONTROUTE 标 志 来 控制 路 由 选择 。 

为 了 防止 协议 在 处 理 报 文 期 间 pr_usrreq 阻 塞 中 断 ，pr_usrreq 被 放 在 splnet 函数 和 
spP1LXx 国 数 之 间 执 行 。 一 些 协议 (如 UDP) 可 能 在 进行 输出 处 理 期 间 并 不 阻塞 中 断 ， 但 揪 口 层 得 
不 到 这 些 信息 。 

如 果 进 程 传送 的 是 带 外 数据 ， 则 sosend 发 送 PRU_SENDOOB 请 求 ; 否则 ， 它 发 送 
PRU_SEND 请 求 。 同 时 将 地 址 和 控制 mbuf 传 送 给 协议 。 

406-413 因为 控制 信息 只 需 传送 给 协议 一 次 ， 所 以 将 clen、control、top 和 mp 初始 化 ， 
然后 为 传送 报 文 的 下 一 部 分 构造 新 的 mbuf 链 。 只 有 atomic 没 有 被 设置 时 (如 TCP)，resid 才 
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可 能 等 于 非 0。 在 这 种 情况 下 ， 如 果 缓 存 中 仍然 有 空间 ， 则 sosenq 回 到 循环 开始 ， 继 续 写 另 
一 个 mbuf。 如 果 没 有 可 用 空间 ， 则 sosenda 回 到 循环 开始 ， 等 待 可 用 空间 (图 16-24)。 

在 第 23 章 我 们 将 了 解 到 不 可 靠 的 协议 ， 如 UDP， 立 即将 数据 排队 等 待 发 送 。 第 26 章 描述 
可 靠 的 协议 ， 如 TCP， 将 数据 放 到 插口 发 送 缓存 直到 数据 被 发 送 和 确认 。 


16.7.3 sosend 函 数 小 结 


sosend 是 一 个 比较 复杂 的 冰 数 。 它 共有 142 行 ， 包 含 3 个 妊 套 的 人 循环， 一 个 利用 goto 实 
现 的 循环 ， 两 个 基于 是 否 设置 PR_ATOMIC 的 代码 分 支 ， 两 个 并 行 锁 。 像 许多 其 他 软件 一 样 ， 
复杂 性 是 多 年 积累 的 结果 。NFS 加 入 MSG_DONTWRAIT 功 能 以 及 从 mbnuf 链 接收 数据 而 不 是 从 进 
程 那 里 接收 数据 。SS_ISCONEFIRMING 状 态 和 MSG_EOR 标 志 是 为 处 理 OSI 协 议 连 接 和 记录 功 
能 而 加 入 的 。 

比较 好 的 做 法 是 为 每 一 种 协议 实现 一 个 独立 的 sosend 函 数 ， 并 通过 protosw 中 的 指针 
pr _ send 来 调度 。[Partridge and Pink 1993] 中 提出 并 实现 了 这 种 方法 。 


16.7.4 性 能 问题 


如 图 16-25 所 摘 述 的 ，sosend 尽 可 能 地 以 mbuf 为 单位 将 报 文 传送 到 协议 层 。 与 将 一 个 报 文 
用 一 个 mbuf 链 的 形式 一 次 建立 并 传送 给 协议 层 的 方法 相 比 ， 这 种 做 法 导致 了 更 多 的 调用 ， 但 
A: [Jacobson 1998a] 说 明了 这 种 做 法 增加 了 并 行 性 ， 因 而 获得 了 较 好 的 性 能 。 

一 次 传送 一 个 mbuf(2048 个 字 节 ) 人 允许 CPU 在 网 络 硬件 传输 数据 的 同时 准备 一 个 分 组 。 同 
发 送 一 个 大 的 mbuf 链 相 比 : 构造 一 个 大 的 mbuf 链 的 同时 ， 网 络 和 接收 系统 是 空闲 的 。 在 
[Jacobson 1998a] 描 述 的 系统 中 ， 这 种 改变 导致 了 网 络 吞 吐 量 增加 20%。 

有 一 点 非常 重要 ， 即 确保 发 送 缓存 的 大 小 总 是 大 于 连接 的 带宽 和 时 延 的 乘积 ( 卷 1 的 第 20.7 
六)。 例 如 ， 如 果 TCP 认 为 一 条 连接 在 收 到 确认 之 前 能 保留 20 个 报 文 段 ， 那 么 发 送 缓存 必须 大 
到 足够 存储 20 个 未 被 确认 的 报 文 段 。 如 果 发 送 缓存 太 小 ，TCP 在 收 到 第 一 个 确认 之 前 将 用 完 
数据 ， 连 接 将 在 一 段 时 间 内 是 空闲 的 。 


16.8 read、readv、recvfrom 和 recvmsg 系 统 调 用 


我 们 将 read、readv、recvfrom 和 recvmsg 系 统 调用 统称 为 读 系统 调用 ， 从 网 络 连 接 
上 接收 数据 。 同 recvmsg 相 比 ， 前 三 个 系统 调用 比较 人 简单。recvmsg 因 为 比较 通用 而 复杂 得 
多 。 图 16-27 给 出 了 这 四 个 系统 调用 和 一 个 库 函 数 (recv) 的 特点 。 


缓存 数量 | 返回 发 送 者 的 地 址 吗 ? 返回 控制 信息 ? 


任何 类 型 ] 
任何 类 型 | [1..UIO MAXIOV] 
插口 l 
插口 l 
插口 [1..UIO-MAXIOV] 











read 

















readv 






recv 






recvfrom 








recvmsg 





图 16-27 读 系统 调用 


在 Net/3 中 ，Fecv 是 一 个 库 函 数 ， 通 过 调用 recvfrom 来 实现 的 。 为 了 同 以 前 编 
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译 的 程序 二 进 制 兼 容 ， 内 核 将 旧 的 Yecv 系 统 调 用 映射 到 函数 orecV。 我 们 仅仅 讨论 

recvfrom 的 内 核实 现 。 

只 有 zead 和 zeadv 系 统 调 用 适用 于 各 类 描述 符 ， 其 他 的 调用 只 适用 于 插口 描述 符 。 

同 写 调用 一 样 ， 通 过 iovec 结 构 数 组 来 指定 多 个 缓存 。 对 数据 报 协议 ，recvfrom 和 
recvmsg 返 回 每 一 个 收 到 的 数据 报 的 源 地 址 。 对 于 面向 连接 的 协议 ，getpeername 返 回 连 
接 对 方 的 地 址 。 与 接收 调用 相关 的 标志 参考 第 16.11 市 。 

同 写 调用 一 样 ， 读 调用 利用 一 个 公共 函数 soreceive 来 做 所 有 工作 。 图 16-28 说 明 读 系 
统 调 用 的 流程 。 











- | 
通过 pr _ usrreg 发 送 的 PRU_RCVD 


或 PRU_RCVOOB 
UDP "T ICMP 


图 16-28 所 有 插口 输入 都 由 soreceive 处 理 
我 们 仅仅 讨论 图 16-28 中 的 带 阴 影 的 函数 。 其 余 的 函数 读者 可 以 自己 查阅 有 关 资 料 。 
16.9 recvmsg 系 统 调 用 


recvmsg 国 数 是 最 通用 的 读 系统 调用 。 如 果 一 个 进程 使 用 任何 一 个 其 他 的 读 系统 调用 ， 
且 地 址 、 控 制 信息 和 接收 标志 的 值 还 未 定 ， 则 系统 可 能 在 没有 任何 通知 的 情况 下 丢弃 它们 。 
图 16-29 显 示 了 zecvmsg 国 数 。 
433-445 recvmsg 的 三 个 参数 是 : 插口 描述 符 ， 类 型 为 nsghar 的 结构 指针 ， 几 个 控制 
MET 

1. 复制 ov 数组 
446-461 同 sendmsg 一 样 ，recvmsg 将 msghdr 结 构 复 制 到 内 核 ， 如 来 目 动 分 配 的 数组 
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aiov 太 小 ， 则 分 配 一 个 更 大 的 iovec 数 组 ， 并 且 将 数组 单元 从 进程 复制 到 由 iov 指 向 的 内 核 


数组 (16.4 节 )。 将 第 三 个 参数 复制 到 msghdqz 结 构 中 。 


uipc syscalls.c 


433 struct recvmsg args ( 


434 int S? 

435 struct msghdr *msg; 
436 int flags; 

437 ); 


438 recvmsg(p, uap, retval) 
439 struct proc *p; 
440 struct recvmsg args *uap; 


uipc syscalls.c 


441 int *retval; 
442 ( 
443 struct msghdr msg; 
444 struct iovec aiov[UIO SMALLIOV], *uiov, *iov; 
445 int error; 
446 if (error = copyin((caddr t) uap-»msg, (caddr t) & msg, sizeof (msg) ) ) 
447 return (error); 
448 if ((u int) msg.msg iovlen »- UIO SMALLIOV) ( 
449 if ((u int) msg.msg iovlen »- UIO MAXIOV) 
450 return (EMSGSIZE); 
451 MALLOC(iov, struct iovec *, 
452 sizeof(struct iovec) * (u int) msg.msg iovlen, M IOV, 
453 M WAITOK); 
454 ) else 
455 iov - aiov; 
456 msg.msg flags - uap-»flags; 
457 uiov - msg.msg iov; 
458 msg.msg iov - iov; 
459 if (error - copyin((caddr t) uiov, (caddr t) iov, 
460 (unsigned) (msg.msg iovlen * sizeof(struct iovec)))) 
461 goto done; 
462 if ((error = recvit(p, uap-»s, &msg, (caddr t) 0, retval)) == 0) 
463 msg.msg iov - uiov; 
464 error - copyout((caddr t) & msg, (caddr t) uap-»msg, sizeof(msg)); 
465 ) 
466 done: 
467 if (iov !- aiov) 
468 FREE(iov, M IOV); 
469 return (error); 
470 ) 
图 16-29 recvmsg 系 统 调用 
2. recvit 和 释放 缓存 


462-470 recvit 收 完 数据 后 ， 将 更 新 过 的 缓存 长 度 和 标志 的 msghdr 结 构 再 复制 到 进程 。 


如 果 分 配 了 一 个 更 大 的 jovec 结 构 ， 则 返回 之 前 释放 它 。 
16.10 recvitt?RZ 


recvit Kğ krecv, recvfrom£kBürecvmsaiWH, ZnÉl6-30Hpzk, 3k Frecv xxxi 


用 提供 的 msghdar 结 构 ，zecvit 国 数 为 soreceive 的 处 理 准 备 了 一 个 uio 结 构 。 


471-500 getsock 为 描述 符 s 返 回 一 个 file 结 构 ， 然 后 recvit 初 始 化 uio 结 构 ， 


该 结构 


描述 从 内 核 到 进程 之 间 的 一 次 数据 传送 。 通 过 对 iovec 数 组 中 的 msg_iovlen 字 有 段 求 和 得 到 


404 


TCP/IPz£R X2: ZA 


传送 的 字 节 数 。 结 果 保 留 在 uio_resid 中 的 len 中 。 





471 
472 
473 
474 
475 
476 
477 
478 
479 
480 
481 
482 
483 


484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 


uipc syscalls.c 
recvití(p, s, mp, namelenp, retsize) 


Struct proc "p; 

iut S; 

struct msghdr *mp; 

caddr t namelenp; 

int *retsize; 

( 
struct file *fp; 
struct uio auio; 
struct iovec *iov; 
int i; 
int len, error; 
atruét mbuf.*Trom = 0, *econtrol = 0; 


if (error = getsock(p-»p fd, s, &fp)) 
return (error); 
auio.uio iov - mp-»msg iov; 
auio.uio iovcnt = mp-»msg. iovlen; 
auio.uio segflg = UIO USERSPACE; 
auio.uio rw - UIO READ; 
auio.uio procp - p; 
auio.uio offset = 0; /* XXX */ 
auio.uio resid = 0; 
iov = mp-»msg. iov; 
for (i = 0; i < mp-»msg iovlen; i++, iov-««) ( 
if (iov-»iov len < O0) 
return (EINVAL); 
if ((auio.uio resid += iov-»iov len) < 0) 
return (EINVAL); 
} 


len = auio.uio resid; x 
uipc syscalls.c 


图 16-30 recvitr&KZ&: 初始 化 uio 结 构 


recvit 的 第 二 部 分 调用 soreceive， 并 且 将 结果 复制 到 进程 ， 如 图 16-31 所 示 。 


501 
502 
503 
504 
505 
506 
507 
508 
509 
510 
211 
512 
513 
514 
515 
516 
517 
518 
213 


uipc syscalls.c 
if (error = soreceive((struct socket *) fp-»f data, &from, &auio, 
(struct mbuf **) 0, mp-»msg control ? &control : (struct mbuf **) O0, 
&mp-»msg flags)) ( 
if (auio.uio resid !- len && (error == ERESTART || 
error -- EINTR || error -- EWOULDBLOCK)) 
error - 0; 
) 
if (error) 
goto out; 
*retsize - len - auio.uio resid; 
if (mp-»msg name) ( 
len - mp-»msg namelen; 


if (len <= 0 || from ss 0) 
len = 0; 
else ( 


if (len » from-»m len) 
len - from-»m len; 
/* else if len « from-»m len ??? */ 
if (error - copyout(mtod(from, caddr t), 


图 16-31 zecvit 国 数 : 返回 结果 
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520 (caddr t) mp-»msg name, (unsigned) len)) 
524 goto out; 

522 ) 

523 Imp-»msg namelen = len; 

524 if (namelenp && 

525 (error - copyout((caddr t) & len, namelenp, sizeof(int)))) ( 
526 goto out; 

527 ) 

528 ) 

529 if (mp-»msg control) ( 

530 len = mp-»msg. controllen; 

531 if (len <= 0 || control =s 0) 

532 len = 0; 

533 else ( 

534 if (len >= control-»m len) 

535 len = control-»m len; 

536 else 

537 | mp-»msg flags |= MSG, CTRUNC; 

538 error - copyout((caddr t) mtod(control, caddr.t), 

539 (caddr t) mp-»msg control, (unsigned) len); 
540 ) 

541 mp->msg_controllen = len; 

542 } 

543 out: 

544 if (from) 

545 m freem(from); 

546 if (control) 

547 m freem(control); 

548 return (error); 

549 ) 


uipc syscalls.c 
图 16-31 (5) 


1. 调用 soreceive 
501-510 soreceive 实 现 从 插口 缓存 中 接收 数据 的 最 复杂 的 功能 。 传 送 的 字 太 数 保存 在 
*retsize 中 ,并 且 返 回 给 进程 。 如 果 有 些 数 据 已 经 被 复制 到 进程 后 信号 出 现 或 阻塞 出 现 
(len 不 等 于 uio_resid)， 则 忽略 差错 ， 并 返回 已 经 传送 的 字 万 。 

2. 将 地 址 和 控制 信息 复制 到 进程 
511-542 如 果 进 程 传 信 了 一 个 存放 地 址 或 控制 信息 或 两 者 都 有 的 缓存 ， 则 zecvit 将 结果 
写 入 该 缓存 ， 并 且 根 据 soreceive 返 回 的 结果 调整 它们 的 长 度 。 如 果 缓 存 太 小 ， 则 地 址 信息 

可 能 被 截 掉 。 如 果 进 程 在 发 送 读 调 用 之 前 保留 缓存 的 长 度 ， 将 该 长 度 同 内 核 返 回 的 
namelenp 变 量 ( 或 sockaddr 结 构 的 长 度 域 ) 相 比较 就 可 以 发 现 这 个 差错 。 通 过 设置 
msg flags 中 的 MSG CTRUNC 标 志 来 报告 这 种 差错 ， 参 考 习 题 16-7。 


3. 释放 缓存 
543-549 从 out 开 始 ， 释 放 存 储 源 地 址 和 控制 信息 的 mbuf 缓 存 。 


16.11 soreceiverfZ 


soreceive 国 数 将 数据 从 播 口 的 接收 缓存 传送 到 进程 指定 的 缓存 。 某 些 协 议 还 提供 发 送 
者 的 地 址 ， 地 址 可 以 同 可 能 的 附加 控制 信息 一 起 返回 。 在 讨论 它 的 代码 之 前 ， 先 来 讨论 接收 
操作 ， 带 外 数据 和 插口 接收 缓存 的 组 织 的 含义 。 
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图 16-32 列 出 了 在 执行 soreceive 期 间 内 核 知 道 的 一 些 标志 。 


MSG DONTWAIT | 在 调用 期 间 不 等 待 资 源 


MSG OOB 接收 带 外 数据 而 不 是 正 浓 的 数据 
MSG PEEK 接收 数据 的 副本 而 不 取 走 数据 
MSG WAITALL 在 返回 之 前 等 待 数据 写 缓存 


图 16-32 recv xxx 系 统 调用 : 传递 给 内 核 的 标志 值 


recvmsg 是 唯一 返回 标志 字段 给 进程 的 读 系 统 调 用 。 在 其 他 的 系统 调用 中 ， 控 制 返回 给 
进程 之 前 ， 这 些 信息 被 内 核 丢 弃 。 图 16-33 列 出 了 在 msghdqr 中 zecvmsg 能 设置 的 标志 。 


MSG CTRUNC | 控制 信息 的 长 度 大 于 提供 的 缓存 长 度 图 16-31 





MSG_EOR 收 到 的 数据 标志 一 个 逻辑 记录 的 结束 图 16-48 
MSG OOB 缓存 中 包含 带 外 数据 16-45 
MSG TRUNC | 收 到 的 报 文 的 长 度 大 于 提供 的 缓存 长 度 | 图 16-51 


图 16-33 recvmsg 系 统 调 用 内 核 返 回 的 msg_flag 值 





16.11.1 市 外 数据 


带 外 数据 (OOB) 在 不 同 的 协议 中 有 不 同 的 含义 。 一 般 来 说 ， 协 议 利 用 已 建立 的 通信 连接 
来 发 送 OOB 数 据 。OOB 数 据 可 能 与 已 发 送 的 正常 数据 同 序 。 揪 口 层 支持 两 种 与 协议 无 关 的 机 
制 来 实现 对 OOB 数 据 的 处 理 : 标记 和 同步 。 本 章 讨 论 揪 口 层 实现 的 抽象 的 OOB 机 制 。UDP 不 
支持 OOB 数 据 。TCP 的 紧急 数据 机 制 与 播 口 层 的 OOB 数 据 之 间 的 关系 在 TCP 一 章 中 描述 。 

发 送 进程 通过 在 sendxxx 调 用 中 设置 MSG ooB 标 志 将 数据 标记 为 OOB 数 据 。sosend 将 
这 个 信息 传递 给 插口 协议 ， 插口 层 收 到 这 个 信息 后 ， 对 数据 进行 特殊 处 理 ， 如 加 快 发 送 数 据 
或 使 用 另 一 种 排队 策略 。 

当 一 个 协议 收 到 OOB 数 据 后 ， 并 不 将 它 放 进 插口 的 接收 缓存 而 是 放 在 其 他 地 方 。 进 程 通过 
设置 recvxxx 调 用 中 的 MSG_00B 标 志 来 接收 到 达 的 OO0B 数 据 。 男 一 种 方法 是 ， 通 过 设置 
SO_OO0BINLINE 插 口 选 项 ( 见 第 17.3 节 )， 接 收 进程 可 以 要 求 协议 将 OO0B 数 据 放 在 正常 的 数据 之 
内 。 当 SO_OOBINLINE 被 设置 时 ， 协 议 将 收 到 的 OOB 数 据 放 进 正常 数据 的 接收 缓存 。 在 这 种 
情况 下 ，MSG_OOB 不 用 来 接收 OOB 数 据 。 读 调用 要 么 返回 所 有 的 正常 数据 ， 要 么 返回 所 有 的 
OOB 数 据 。 两 种 类 型 的 数据 从 来 不 会 在 一 个 输入 调用 的 输入 缓存 中 混淆 。 进 程 使 用 recvmsg 
来 接收 数据 时 ， 可 以 通过 检查 MSG_OOB 标 志 来 决定 返回 的 数据 是 正和 数据 还 是 OOB 数 据 。 

插口 层 支 持 OOB 数 据 和 正常 数据 的 同步 接收 ， 采 用 的 方法 是 允许 协议 在 正常 数据 流 中 标 
记 OOB 数 据 起 始点 。 接 收 者 可 以 在 每 一 个 读 系统 调用 的 后 面 ， 通 过 SIOCRATMRRK ioctlám 
令 来 检查 是 否 已 经 达到 OOB 数 据 的 起 始点 。 当 接收 正常 的 数据 时 ， 播 口 层 确保 在 一 个 报 文中 
只 有 在 标记 前 的 正常 数据 才 会 收 到 ， 使 得 接收 者 接收 的 数据 不 会 超过 标记 。 如 果 在 接收 者 到 
达标 记 之 前 收 到 一 些 附加 的 O00B 数 据 ， 标 记 就 自动 向 前 移 。 — 


16.11.2 举例 
图 16-34 说 明 两 种 接收 带 外 数据 的 方法 。 在 两 个 例子 中 ， 字 市 A~I 作 为 正常 数据 接收 ， 字 
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节 J 作 为 带 外 数据 接收 ， 字 节 K~L 作 为 正常 数据 接收 。 接 收 进程 已 经 接收 了 A 之 前 (不 包括 A) 的 
所 有 数据 。 
处 理 接收 缓存 





带 外 数据 标记 


已 处 理 接收 缓存 





标记 和 带 外 数据 


图 16-34 接收 带 外 数据 


在 第 一 个 例子 中 ， 进 程 能 够 正确 读 出 字 节 A~I， 或 者 如 果 设 置 MSG_O00B， 也 能 读 出 字 市 J。 
即使 读 请 求 的 长 度 大 于 9 个 字 节 (A~I)， 插口 层 也 只 返回 9 个 字 节 ， 以 免 超 过 带 外 数据 的 同步 标 
记 。 当 读 出 字 节 I 后 ，SIOCATMARK 为 真 ， 对 于 到 达 带 外 数据 标记 的 进程 ， 不 必 读 出 字 市 J。 

在 第 二 个 例子 中 ， 在 SIOCRATMRARX 为 真 时 只 能 读 字 节 A~I。 第 二 次 调用 读 字 节 J~L。 

在 图 16-34 中 ， 字 节 J 不 是 TCP 的 紧急 数据 指针 指示 的 字 节 。 在 本 例 中 ， 紧 急 指 针 指 癌 的 是 
字 节 KK。 有 关 细 市 请 参考 第 29.7 市 。 


16.11.3 ”其 他 的 接收 操作 选项 


进程 能 够 通过 设置 标志 MSG_PEEK 来 查看 是 否 有 数据 到 达 。 而 数据 仍然 留 在 接收 队列 中 ， 
被 下 一 个 不 设置 MSG PEEK 的 读 调用 读 出 。 

标志 MSG_WAITALL 指 示 读 调用 只 有 在 读 到 指定 数量 的 数据 后 才 返 回 。 即 使 soreceive 
中 有 一 些 数据 可 以 返回 给 进程 ， 但 它 仍然 要 等 到 收 到 剩余 的 数据 后 才 返 回 。 

当 标志 MSG_WAITALL 被 设置 后 ，soreceive 只 有 在 下 列 情况 下 可 以 在 没有 读 完 指定 长 
度 的 数据 时 返回 : 

。 连 接 的 读 通道 被 关闭 

。 插 口 的 接收 缓存 小 于 所 读数 据 的 大 小 

* 在 进程 等 待 剩余 的 数据 时 差错 出 现 ， 

* 带 外 数据 到 达 ， 

* 在读 缓 存 被 写 满 之 前 ， 一 个 逻辑 记录 的 结尾 出 现 。 

NFS 是 Net/3 中 唯一 使 用 MSG WAITALL 和 MSG DONTWAIT 标 志 的 软件 。 进 程 可 
以 不 通过 ioct1 或 Ecnt1 来 选择 非 阻 塞 的 IO 操作 而 是 设置 MSG DONTWAIT 标 志 来 
实现 非 阻塞 的 读 系统 调用 。 


16.11.4 “接收 缓存 的 组 织 : 报 文 边界 
对 于 支持 报 文 边界 的 协议 ， 每 一 个 报 文 存放 在 一 个 mbuf 链 中 。 接 收 缓存 中 的 多 个 报 文通 
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过 m_nextpkt 指 针 链接 成 一 个 mbuf 队 列 ( 图 2-21)。 协 议 处 理 层 加 数据 到 接收 队列 ， 插 口 层 从 
接收 队列 中 移 走 数据 。 接 收 缓存 的 高 水 位 标记 限制 了 存储 在 缓存 中 的 数据 量 。 

如 采 PR_RATOMIC 没 有 被 置 位 ， 协 议 层 尽 可 能 多 地 在 缓存 中 存放 数据 ， 丢 弃 输 入 数据 中 的 
不 合 要 求 的 部 分 。 对 于 TCP， 这 就 意味 着 到 达 的 任何 数据 如 果 在 接收 窗口 之 外 都 将 被 丢弃 。 
如 采 PR_RATOMIC 被 置 位 ， 缓 存 必 须 能 够 容纳 整个 报 文 ， 否 则 协议 层 将 丢弃 整个 报 文 。 对 于 
UDP 而 言 ， 如 果 接 收 缓存 已 满 ， 则 进入 的 数据 报 都 将 被 丢弃 ， 缓 存 满 的 原因 可 能 是 进程 读数 
据 报 的 速度 不 够 快 。 

PR_RADDR 被 置 位 的 协议 使 用 sbappendaddr 构 造 一 个 mbuf 链 ， 并 将 其 加 入 到 接收 队列 。 
缓存 链 包 含 一 个 存放 报 文 源 地 址 的 mbuf，0 个 或 更 多 的 控制 mbuf， 后 面 跟着 0 个 或 更 多 的 包含 
数据 的 mbuf 。 

对 于 SOCK_SEQPACKET 和 SOCK_RDM 协 议 ， 它 们 为 每 一 个 记录 建立 一 个 mbuf 链 。 如 果 
PR_ATOMIC 被 置 位 ， 则 调用 sbappendrecord， 将 记录 加 到 接收 缓存 的 尾部 。 如 果 
PR_ATOMIC 设 有 被 置 位 (OSI 的 TP4)， 则 用 sbappendrecord 产 生 一 个 新 的 记录 ， 其 余 的 数 
据 用 sbappend 加 到 这 个 记录 中 。 

假定 PR _ATOMIC 就 是 表示 缓存 的 组 织 结构 是 不 正确 的 。 例 如 ，TP4 中 并 没有 
PR ATOMIC, 而 是 用 M_EOR 标 志 来 支持 记录 边界 。 


图 16-35 说 明了 由 三 个 mbuf 链 ( 即 三 个 数据 报 ) 组 成 的 UDP 接 收 缓 存 的 结构 。 每 一 个 mbuf 中 
都 标 有 m_type 的 值 。 


在 图 16-35 中 ， 第 三 个 数据 报 中 有 一 些 控制 信息 。 三 个 UDP 插口 选项 能 够 导致 控制 信息 被 
存 入 接收 缓存 。 详 细 情 况 参 考 图 22-5 和 图 23-7。 


ket() 








SO rcv 


数据 报 1 MT ADDR MT DATA MT DATA 


数据 报 2. MT ADDR MT DATA MT DATA MT DATA 
数据 报 3 MT ADDR MT CONTRO MT DATA 


图 16-35 包含 三 个 数据 报 的 UDP 接收 缓存 


对 于 PR_ATOMIC 协 议 ， 当 收 到 数据 时 ，sb_1lowat 被 忽略 。 当 没有 设置 PR_ATOMICH 时 ， 
sb_lowat 的 值 等 于 读 系 统 调用 返回 的 最 小 的 字 节 数 。 但 也 有 一 些 例 外 ， 如 图 16-41 所 示 。 


16.11.5 接收 缓存 的 组 织 : 没有 报 文 边界 
当 协 议 不 需 维 护 报 文 边界 ( 即 SOCK_STRERAM 协 议 ， 如 TCP) 时 ， 通 过 sbappend 将 进入 的 
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数据 加 到 缓存 中 的 最 后 一 个 mbuf 链 的 尾部 。 如 果 进 入 的 数据 长 度 大 于 缓存 的 长 度 ， 则 数据 将 
被 截 掉 ，sb_1Lowat 为 一 个 读 系统 调用 返回 的 字 节 数 设 置 了 一 个 下 限 。 
图 16-36 说 明了 仅仅 包含 正常 数据 的 TCP 接 收 缓存 的 结构 。 


socket() 





SO rcv 


MT DATA MT DATA MT DATA 


MT DATA MT DATA MT DATA 
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16.11.6 控制 信息 和 带 外 数据 


不 像 TCP， 一 些 流 协议 支持 控制 信息 ， 并 且 调 用 sbappendcontrol 将 控制 信息 和 相关 
数据 作为 一 个 新 的 mbuf 链 加 入 接收 缓存 。 如 果 协 议 支 持 内 含 OOB 数 据 ， 则 调用 
sbinsertoob 插 入 一 个 新 的 mbuf 链 到 任何 包含 O0B 数 据 的 mbuf 链 之 后 ， 但 在 任何 包含 正常 
数据 的 mbuf 链 之 前 。 这 一 点 确保 进入 的 O00B 数 据 总 是 排 在 正常 数据 之 前 。 

图 16-37 说 明 包 含 控 制 信息 和 OOB 数 据 的 接收 缓存 的 结构 。 


socket {} 





SO rcv 


MT OOBDATA 


MT DATA MT DATA 
MT CONTRO MT DATA 
MT DATA MT DATA MT DATA 


516-37 带 有 控制 信息 和 OOB 数 据 的 so_rcv 缓 存 


Unix 域 流 协 议 支持 控制 信息 ，OSI TP4 协 议 支 持 MT_OOBDRTR mbuf。TCP 既 不 支持 控制 
信息 ， 也 不 支持 MT_O0BDATA 形 式 的 带 外 数据 。 如 果 TCP 的 紧急 指针 指向 的 字 市 存储 在 数据 
内 (SO_OO0BINLINE 被 设置 )， 那 么 该 字 市 是 正常 数据 而 不 是 OOB 数 据 。TCP 对 紧急 指针 和 相 
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关 数 据 的 处 理 在 第 29.7 节 中 讨论 。 
16.12 soreceive 代 码 


我 们 现在 有 足够 的 背景 信息 来 详细 讨论 soreceive 函 数 。 在 接收 数据 时 ，soreceive 
必须 检查 报 文 边界 ， 处 理 地 址 和 控制 信息 以 及 读 标志 所 指定 的 任何 特殊 操作 (图 16-32)。 一 般 
来 说 ，soreceive 的 一 次 调用 只 处 理 一 个 记录 ， 并 且 尽 可 能 返回 要 求 读 的 字 市 数 。 图 16-38 
显示 了 soreceive 函 数 的 大 概 情 况 。 


439 soreceive(so, paddr, uio, mp0, controlp, flagsp) 


uipc socket.c 


440 struct socket *so; 

441 struct mbuf **paddr; 
442 struct uio *uio: 

443 struct mbuf **mp0; 

444 struct mbuf **controlp; 


445 int *flagsp; 
446 ( 
447 struct mbuf *m, **mp; 
448 int flags, len, error, s, offset; 
449 struct protosw *pr = so-»Sso proto; 
450 struct mbuf *nextrecord; 
451 int moff, type; 
452 int orig resid - uio-»uio resid; 
453 mp = mp0; 
454 if (paddr) 
455 *paddr = 0; 
456 if (controlp) 
457 *controlp = 0; 
458 if (flagsp) 
459 flags - *flagsp & ^MSG, EOR; 
460 else 
461 flags = 0; 
/* MSG_OOB processing and */ . 
/* implicit connection confirmation */ 
483 restart: 
484 if (error = sblock(&so-»so rcv, SBLOCKWAIT(flags))) 
485 return (error); 
486 S = Splnet(); 
487 m - So-»so rcv.sb mb; 
/* if necessary, wait for data to arrive */ 
542 dontblock: 
543 if (uio-»uio. procp) 
544 uio-»uio, procp-»p stats-»p ru.ru, msgrcv-«-; 
545 nextrecord - m-»m nextpkt; 
/* process address and control irnformation */ 
591 if (m) ( 
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592 if ((flags & MSG PEEK) == 0) 
593 m-»m nextpkt - nextrecord; 
594 type - m-»m type; 

595 if (type == MT OOBDATA) 

596 flags |= MSG. OOB; 

597 ) 





715 release: 


716 sbunlock(&so-»so rcv); 
TLI splx (s); 

718 return (error); 

119 } 


uipc socket.c 


图 16-38 (£x) 


439-446 soreceive 有 六 个 参数 。 指 向 揪 口 的 so 指针 。 指 向 存放 接收 地 址 信息 的 mbuf 组 
存 的 指针 *paddr。 如 果 mp0 指 向 一 个 mbuf 链 ， 则 soreceive 将 接收 缓存 中 的 数据 传送 到 
*mp0 指 向 的 mbuf 缓 存 链 。 在 这 种 情况 下 ，uio 结 构 中 只 有 用 来 记 数 的 uio_resid 字 段 是 有 
意义 的 。 如 果 mp0 为 空 ， 则 soreceive 将 数据 传送 到 uio 结 构 中 指定 的 缓存 。*controlp 指 
向 包含 控制 信息 的 mbuf 缓 存 。soreceive 将 图 16-33 中 摘 述 的 标志 存放 在 *flagsp。 
447-453 soreceive 一 开始 将 pr 指向 插口 协议 的 交换 结构 ， 并 将 uio_resid( 接 收 请 求 的 
大 小 ) 保 存在 orig_resid。 如 果 将 控制 或 地 址 信息 从 内 核 复 制 到 进程 ， 则 将 orig_resid 清 
0。 如 果 复 制 的 是 数据 ， 则 更 新 uio_resid。 不 管 哪 一 种 情况 ，orig_resid 都 不 可 能 等 于 
uio resid。soreceive 国 数 的 最 后 处 理 要 利用 这 一 事实 (图 16-51)。 

454-461 在 这 一 段 代 码 中 ， 首 先 将 *paddr 和 *controlp 置 空 。 在 将 MSG _EOR 标 志清 0 后 ， 
将 传 给 soreceive 的 *f1agsp 的 值 保存 在 flags 中 (习题 16.8)。f1agsp 是 一 个 用 来 返回 结 
果 的 参数 ， 但 是 只 有 recvmsg 系 统 调用 才能 收 到 结果 。 如 果 f1lagsp 为 空 ， 则 将 flags 清 0。 
483-487 在 访问 接收 缓存 之 前 ， 调 用 sblock 给 缓存 加 锁 。 如 果 f1ags 中 没有 设置 
MSG DONTWAIT 标 志 ， 则 soreceive 必 须 等 待 加 锁 成 功 。 


支持 在 内 核 中 从 NFS 发 调用 到 插口 层 带 来 了 另 一 个 副作用 。 


挂 起 协议 处 理 ， 使 得 在 检查 缓存 过 程 中 soreceive 不 被 中 断 。m 是 接收 缓存 中 的 第 一 个 
mbuf 链 上 的 第 一 个 mbuf 。 

1. 如 果 需 要 ， 等 待 数 据 
488-541 soreceive 要 检查 几 种 情况 ， 并 且 如 果 需 要 ， 它 可 能 要 等 待 接收 更 多 的 数据 才 继 
续 往 下 执行 。 如 出 4oreceive 在 这 里 进入 舍 肛 状态 ， 则 在 它 醒 来 后 跳 转 到 restart 查 看 是 
否 有 足够 的 数据 到 达 。 这 个 过 程 一 直 继 续 ， 直 到 收 到 足够 的 数据 为 止 。 
542-545 当 soreceive 已 收 到 足够 的 数据 来 满足 读 请 求 所 要 求 的 数据 量 时 ， 就 跳 转 到 
dontblock。 并 将 指向 接收 缓存 中 的 第 二 个 mbuf 链 的 指针 保存 在 nextrecord 中 。 
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2. 处 理 地 址 和 控制 信息 
542-545 在 传送 数据 之 前 ， 首 先 处 理 地址 信息 和 控制 信息 。 

3. 建立 数据 传送 
591-597 因为 只 有 OOB 数 据 或 正常 数据 是 在 一 次 soreceive 调 用 中 传送 ， 这 段 代码 的 功 
能 就 是 记 住 队列 前 端的 数据 的 类 型 ， 这 样 在 类 型 改变 时 ，soreceive 能 够 停止 传送 。 

4. 传送 数据 循环 
598-692 只 要 缓存 中 还 有 mbuf (m 不 空 )， 请 求 的 数据 还 没有 传送 完毕 (uio_resiqd>0), H. 
没有 差错 出 现 ， 本 循环 就 不 会 退出 。 


退出 处 理 
693-719 剩余 的 代码 主要 是 更 新 指针 、 标 志和 偏 移 ， 释 放 揪 口 缓存 锁 ;， 使 能 协议 处 理 并 
Js [nl , 
图 16-39 说 明 soreceive 对 OOB 数 据 的 处 理 。 
- uipc socket.c 
462 if (flags & MSG_OOB) { 
463 m-m get(M WAIT, MT DATA); 
464 error - (*pr-»pr usrreq) (so, PRU RCVOOB, 
465 m, (struct mbuf *) (flags & MSG PEEK), (struct mbuf *) 0); 
466 if (error) 
467 goto bad; 
468 do ( 
469 error - uiomove(mtod(m, caddr t), 
470 (int) min(uio-»uio resid, m-»m len), uio); 
471 m - m free(m); 
472 } while (uio-»uio resid && error == 0 && m); 
473 bad: 
474 if (m) 
475 m freem(m); 
476 return (error); 
477 ) 
uipc socket.c 
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5. 接收 OOB 数 据 
462-477 因为 OOB 数 据 不 存放 在 接收 缓存 中 ， 所 以 soreceive 为 其 分 配 一 块 标准 的 mbuf， 
并 给 协议 发 送 PRU_RCVOOB 请 求 。while 循 环 将 协议 返回 的 数据 复制 到 uio 指 定 的 缓存 中 。 复 
制 完 成 后 ，soreceive 返 回 0 或 差错 代码 。 

对 于 PRU RCVOOB 请 求 ，UDP 协 议 总 是 返回 EOPNOTSUPP。 关 于 TCP 的 紧急 数据 的 处 理 
的 详细 情况 参考 第 30.2 节 。 图 16-40 说 明 soreceive 对 连接 信息 的 处 理 。 


uipc socket.c 


478 if (mp) 
479 *mp = (struct mbur *) 109 
480 if (so-»so state & SS ISCONFIRMING && uio-»uio. resid) 
481 (*pr-»pr usrreq) (so, PRU RCVD, (struct mbuf *) O0, 
482 (struct mbuf *) 0; (struct mbuf *) 0); 
uipc socket.c 
图 16-40 soreceiveňšýt: 连接 信息 
6. 连接 证 实 


478-482 如果 返 回 的 数据 存放 在 mbuf 链 中 ， 则 将 *mp 初 始 化 成 空 。 如 采 插 口 处 于 
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SO ISCONFIRMING 状 态 ，PRU_RCVD 请 求 告知 协议 进程 想 要 接收 数据 。 


SO_ISCONFIRMING 状 态 仅 用 于 OSI 的 流 协议 ，TP4。 在 TP4 中 ， 直 到 一 个 用 户 
级 进程 通过 发 送 或 接收 数据 的 方式 来 证 实 连接 ， 该 连接 才 被 认为 已 完全 建立 。 在 通 
过 调用 getpeername 来 获取 对 方 的 身份 后 ， 进 程 可 能 调用 shutdown 或 close 来 拒 
图 16-38 显 示 了 图 16-41 中 的 代码 在 检查 接收 缓存 时 ， 接 收 缓存 被 加 锁 。soreceive 的 这 
部 分 代码 的 功能 是 查看 接收 缓存 中 的 数据 是 否 能 满足 读 系 统 调用 的 要 求 。 


uipc socket.c 


488 /* 

489 * If we have less data than requested, block awaiting more 

490 * (subject to any timeout) if: 

491 * 1. the current count is less than the low water mark, or 

492 * 2. MSG WAITALL is set, and it is possible to do the entire 

493 * receive operation at once if we block (resid «- hiwat) . 

494 * 3. MSG DONTWAIT is not set 

495 * 

496 * If MSG, WAITALL is set but resid is larger than the receive buffer, 
497 * we have to do the receive in sections, and thus risk returning 
498 * a short count if a timeout or signal occurs after we start. 

499 */ 

500 if (m == 0 || ((flags & MSG DONTWAIT) == 0 && 

501 SO-»SO rcv.sb cc < uio-»uio resid) && 

502 (so-»so rcv.sb cc < so-»so rcv.sb lowat || 

503 ((flags & MSG WAITALL) && uio-»uio resid «- so-»so rcv.sb hiwat)) && 


504 m-»m nextpkt == 0 && (pr-»pr flags & PR ATOMIC) == 0) { . 
ion 化 


图 16-41 soreceive 国 数 : iste? 
7. 读 调 用 的 请 求 能 满足 吗 
488-504 一 般 情况 下 , soreceive 要 等 待 直 到 接收 缓存 中 有 足够 的 数据 来 满足 整个 读 请 求 。 
但 是 ， 有 几 种 情况 可 能 导致 差错 或 返回 比 读 请 求 要 求 少 的 数据 。 
。 接 收 缓存 没有 数据 (m 等 于 0)。 
。 缓 存 中 的 数据 不 能 满足 读 请 求 要 求 的 数量 (sb _cc<uio_resid) 并 且 没 有 设置 
MSG DONTWAIT 标 志 ， 最 少 的 数据 也 得 不 到 (sb_cc<sb_lowat)， 且 当 该 链 到 达 时 更 
多 的 数据 能 够 加 到 链 的 后 面 (m_nextpkt 等 于 0， 且 没有 设置 PR_ATOMIC)。 
* 缓存 中 的 数据 不 能 满足 读 请 求 要 求 的 数量 , 能 得 到 最 少 的 数据 量 , 数据 能 够 加 到 链 中 来 ， 
但 是 MSG_WAITALL 指 示 soreceive 必 须 等 待 直到 缓存 中 的 数据 能 满足 读 请 求 。 
如 果 最 后 一 种 情况 的 条 件 能 够 满足 ， 但 是 因为 读 请 求 的 数据 太 大 以 至 如 果 不 阻塞 等 待 就 
不 能 满足 (uio resid<sb hiwat)，soreceive 就 不 等 待 而 是 继续 往 下 执行 。 
如 果 接 收 缓存 有 数据 ， 并 且 设 置 了 MSG_DONTWAIT， 则 sorecevie 不 等 待 更 多 的 数据 。 
有 几 种 原因 使 得 等 待 更 多 的 数据 是 不 合适 的 。 在 图 16-42 中 ，soreceive 要 么 检查 三 种 
情况 ， 然 后 返回 ， 要 么 等 待 更 多 的 数据 到 达 。 


8. 等 待 更 多 的 数据 吗 
505-534 在 此 处 ，soreceive 已 经 决定 等 待 更 多 的 数据 来 满足 读 请 求 。 在 等 待 之 前 ， 它 需 
要 检查 以 下 几 种 情况 : 


505-512 。 如 果 播 口 处 于 差错 状态 ， 且 缓存 为 空 (为 空 )， 则 soreceive 返 回 差错 代码 。 如 
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果 有 差错 ， 但 是 接收 缓存 中 有 数据 (m 非 空 )， 则 返回 缓存 的 数据 ;当下 一 个 读 调 用 来 时 ， 如 果 
没有 数据 ， 就 返回 差错 。 如 果 设 置 了 MSG_PEEK， 就 不 清除 差错 ， 因 为 设置 了 MSG_PEEK 的 
读 调用 不 能 改变 插口 的 状态 。 

513-518 * 如 果 连 接 的 读 通道 已 经 被 关闭 并 且 数 据 仍 在 接收 缓存 中 ， 则 sosend 不 等 待 而 是 
将 数据 返回 给 进程 (在 aontblock 的 情况 下 )。 如 果 接 收 缓存 为 空 ， 则 soreceive 跳 转 到 
release，, 读 系统 调用 返回 9， 表示 连接 的 读 通道 已 经 被 关闭 。 

519-523 。 如 果 接 收 缓存 中 包含 带 外 数据 或 出 现 一 个 逻辑 记录 的 结尾 ， 则 soreceive 不 等 
待 ， 而 是 跳 转 到 dontblock。 

524-528 。 如 果 协 议 请 求 中 的 连接 不 存在 ， 则 设置 差错 代码 为 BNOTCONN ， 畏 数 跳 转 到 
release, 

529-534 。 如 果 读 请 求 读 0 字 节 或 插口 是 非 阻 塞 的 ， 则 函数 跳 转 到 release， 并 返回 0 或 
EWOULDBLOCK( 后 一 种 情况 )。 


uipc_socket.c 
505 if (so-»so error) ( 
506 if (m) 
507 goto dontblock; 
508 error = So-»so error; 
509 if ((flags & MSG PEEK) == 0) 
510 So-»so error = O0; 
SLI goto release; 
512 ) 
513 if (so-»so state & SS CANTRCVMORE) { 
514 if (m) 
515 goto dontblock; 
516 else 
517 goto release; 
518 ) 
519 for (; m; m = m-»m next) 
520 if (m-»m type -- MT OOBDATA || (m-»m flags & M EOR)) ( 
521 m = So-»Sso rcv.sb, mb; 
522 goto dontblock; 
523 ) 
524 if ((so-»so state & (SS ISCONNECTED | SS ISCONNECTING)) == 0 && 
525 (SOo-»SsOo, proto-»pr flags & PR CONNREQUIRED)) ( 
526 error - ENOTCONN; 
527 goto release; 
528 ) 
529 if (uio-»uio resid == 0) 
530 goto release; 
5341 if ((so-»so state & SS NBIO) || (flags & MSG DONTWAIT)) { 
532 error - EWOULDBLOCK; 
533 goto release; 
534 ) 
535 sbunlock(&so-»so, rcv); 
536 error = sbwait(&so-»so. rcv); 
537 splx (s); 
538 if (error) 
539 return (error); 
540 goto restart; 
541 } 

uipc_socket.c 
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9. 是 ， 等 待 更 多 的 数据 


535-541 此 处 soreceive 已 决定 等 待 更 多 的 数据 ， 并 且 有 理由 这 么 做 ( 即 ， 将 有 数据 到 达 )。 
在 进程 调用 sbwait 进 入 睡眠 期 间 ， 缓 存 被 解锁 。 如 果 因 为 差错 或 信号 出 现 使 得 sbwait 返 回 ， 
则 soreceive 返 回 相 应 的 差错 ; 否则 soreceive 跳 转 到 restart， 查 看 接收 缓存 中 的 数据 


是 否 能 够 满足 读 请 求 。 


同 sosend 中 一 样 ， 进 程 能 够 利用 SO RCVTIMEO 插 口 选项 为 sbwait 设 置 一 个 接收 定时 


器 。 如 果 在 数据 到 达 之 前 定时 右 超 时 ， 则 sbwait 返 回 EBNWOULDBLOCK。 


定时 器 并 不 能 总 邻 人 满意 。 因 为 当 插 口上 有 活动 时 ， 定 时 器 每 次 都 被 重 置 。 如 
果 在 一 个 超时 间隔 内 至 少 有 一 个 字 节 到 达 ， 则 定时 器 从 来 不 会 超时 ， 一 直到 设置 了 
更 长 的 超时 值 的 读 系统 调用 返回 。sb_timeo 是 一 个 不 活动 定时 路， 并 不 要 求 超时 


值 上 限 ， 但 为 了 满足 读 系 统 调 用 ， 超 时 值 的 上 限 可 能 是 必要 的 。 


在 此 处 ，soreceive 谁 备 从 接收 缓存 中 传送 数据 。 图 16-43 说 明了 地 址 信息 的 传送 。 


542 dontblock: 


543 if (uio-»uio procp) 

544 uio-»uio procp-»p stats-»p ru.ru, msgrcv-4-; 
545 nextrecord - m-»m nextpkt; 

546 if (pr-»pr flags & PR ADDR) ( 

547 orig resid = O0; 

548 if (flags & MSG PEEK) { 

549 if (paddr) 

550 *paddr = m copy(üm, 0, m-»m len); 
551 m = m->m_next; 

552 } else { 

993 sbfree(&so-»so rcv, m); 

554 if (paddr) ( 

555 *paddr = m; 

556 So-»so rcv.sb mb - m-»m next; 
5547 m-»m next - 0; 

558 I| = So-»so rcv.sb mb; 

559 ) else ( 

560 MFREE(m, so-»so rcv.sb mb); 
561 m = So-»so rcv.sb mb; 

562 ) 

563 ) 

564 ) 


图 16-43 soreceive 国 数 : 返回 地 址 信息 
10. dontblock 


uipc socket.c 


uipc socket.c 


542-545 nextrecord 指 向 接收 缓存 中 的 下 一 条 记录 。 在 soreceive 的 后 面 ， 当 第 一 个 


链 被 丢弃 后 ， 该 指针 被 用 来 将 剩余 的 mbuf 放 入 插口 缓存 。 
11. 返回 地 址 信息 


546-564 ”如果 协议 提供 地 址 信息 ， 如 UDP， 则 将 从 mbuf 链 中 删除 包含 地 址 的 mbuf， 并 通过 


*paddr 返 回 。 如 果 paddr 为 空 ， 则 地 址 被 丢弃 。 
在 soreceive 中 ， 如 果 设 置 了 MSG_PEEK， 则 数据 仍 留 在 缓存 中 。 
图 16-44 中 的 代码 处 理 缓 存 中 的 控制 mbuf。 
12. 返回 控制 信息 


565-590 每 一 个 包含 控制 信息 的 mbuf 都 将 从 缓存 中 删除 (如 果 设 置 了 MSG_PEEK， 则 不 删除 
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而 是 复制 )， 并 连 到 *contzrolp。 如 果 conttzrolp 为 空 ， 则 丢弃 控制 信息 。 


uipc socket.c 
565 while (m && m-»m type == MT CONTROL && error == 0) ( 
566 if (flags & MSG PEEK) { 
567 if (controlp) 
568 *controlp = m copy(m, 0, m-»m len); 
569 m - m-»m next; 
570 } else ( 
STL sbfree(&so-»so rcv, m); 
STZ if (Ccöntrolpj í 
573 if (pr-»pr domain-»dom externalize && 
574 mtod(m, struct cmsghdr *)-»cmsg type -- 
575 SCM, RIGHTS) 
576 error = (*pr-»pr domain-»dom externalize) (m); 
577 "controlp = m; 
578 so->so_rcv.sb_mb = m-»m next; 
579 m-»m next = 0; 
580 m = So-»so rcv.sb mb; 
581 ) else { 
582 MFREE(m, so-»so rcv.sb mb); 
583 m = so-»so rcv.sb mb; 
584 } 
585 
586 if (controlp) ( 
587 orig resid - 0; 
588 controlp - &(*controlp)-»m next; 
589 ) 
590 } " 

uipc socket.c 
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如 果 进 程 准备 接收 控制 信息 ， 则 协议 定义 了 一 个 aom_extetrnalize 国 数 ， 一 且 控 制 信 
和 县 mbuf 中 包含 SCM_RIGHTS( 访 问 权 限 )， 就 调用 aom_externalize 国 数 。 该 国 数 执行 内 核 
中 所 有 接收 访问 权限 的 操作 。 只 有 Unix 域 协议 支持 访问 权限 ， 有 关 细 市 在 第 7.3 市 已 讨论 过 。 
如 果 进 程 不 准备 接收 控制 信息 (controlp 为 空 )， 则 丢弃 控制 mbuf。 

直到 处 理 完 所 有 包含 控制 信息 的 mbuf 或 出 现 差错 时 ， 循环 才 退 出 。 

对 于 Unix 协 议 域 ，daom_externalize 函 数 通 过 修改 接收 进程 的 文件 描述 符 表 

来 实现 文件 描述 符 的 传送 。 

处 理 完 所 有 的 控制 mbuf 后 ，m 指 向 链 中 的 下 一 个 mbuf。 如 果 在 地 址 或 控制 信息 的 后 面 ， 
链 中 没有 其 他 的 mbuf， 则 m 为 空 。 例 如 ， 当 一 个 长 度 为 0 的 数据 报 进入 接收 缓存 时 就 会 出 现 这 
种 情况 。 图 16-45 说 明了 soreceive 准 备 从 mbuf 链 中 传送 数据 。 





uipc_socket.c 


591 if (m) ( 

592 if ((flags & MSG PEEK) -- 0) 
533 m-»m nextpkt - nextrecord; 
594 type - m-»m type; 

595 if (type -- MT OOBDATA) 

596 flags |- MSG OOB; 

597 ) 





uipc socket.c 


16-45 soreceive 国 数 : 准备 传送 mbuf 


PBl6*€ 4$ wv IO 417 


13. 准备 传送 数据 
591-597 处 理 完 控制 mbuf 后 ， 链 中 应 该 只 剩 下 正常 数据 、 带 外 数据 mbuf 或 没有 任何 mbuf。 
如 果 m 为 衬 ， 则 sorzeceive 完 成 处 理 ， 控 制 跳 到 while 循 环 的 底部 。 如 果 m 不 空 ， 所 有 剩余 
的 mbuf 链 (nextrecord) 都 将 重新 连接 到 m， 并 将 下 一 个 mbuf 的 类 型 赋 给 type。 如 果 下 一 个 
mbuf 包 含 OO0B 数 据 ， 则 设置 fl1ags 中 的 MSG_00B 标 志 ， 并 在 最 后 返回 给 进程 。 因 为 TCP 不 支 
持 MT_OOBDRATRA 形 式 的 带 外 数据 ， 所 以 MSG_OOB 不 会 返回 给 TCP 插 口上 的 读 调 用 。 

图 16-47 显 示 了 传送 mbuf 循 环 的 第 一 部 分 。 图 16-46 列 出 了 循环 中 更 新 的 变量 。 


moff 当 MSG_PEEK 被 置 位 时 ， 将 被 传送 的 下 一 个 字 市 的 偏 移 位 置 
offset 当 MSG _PEEK 被 置 位 时 ，OOB 标 记 的 偏 移 位 置 


uio resid 还 未 传送 的 字 节 数 
len 从 本 mbuf 中 将 要 传送 的 字 节 数 ， 如 果 uio_zresid 比 较 小 或 靠 OOB 标 记 比 较 近 ， 则 1en 
可 能 小 于 m_len.。 


图 16-46 soreceive 国 数 : 循环 内 的 变量 





uipc socket.c 
598 moff = 0; 
599 offset = 0; 
600 while (m && uio-»uio resid > 0 && error == 0) ( 
601 if (m-»m type -- MT OOBDATA) ( 
602 if (type !- MT OOBDATA) 
603 break; 
604 ) else if (type -- MT OOBDATA) 
605 break; 
606 SO-»SO State &- ^SS RCVATMARK; 
607 len = uio-»uio resid; 
608 if (so-»so oobmark && len > so-»so oobmark - offset) 
609 len - so-»so oobmark - offset; 
610 if (len » m-»m len - moff) 
611 len = m-»m len - moff; 
612 ; den 
613 * If mp is set, just pass back the mbufs. 
614 * Otherwise copy them out via the uio, then free. 
615 * Sockbuf must be consistent here (points to current mbuf, 
616 * it points to next record) when we drop priority; 
617 * we must note any additions to the sockbuf when we 
618 * block interrupts again. 
619 Gi 
620 1f (Ub == 0) { 
621 splx(s); 
622 error - uiomove(mtod(m, caddr t) + moff, (int) len, uio); 
623 S = Splnet(); 
624 ) else 
625 uio-»uio resid -= len; 


uipc socket.c 
图 16-47 soreceiverW Zt. uiomove 


598-600 ”while 循环 的 每 一 次 循环 中 ， 一 个 mbuf 中 的 数据 被 传送 到 输出 链 或 uio 缓 存 中 。 
一 旦 链 中 没有 mbuf 或 进程 的 缓存 已 满 或 出 现 差错 ， 就 退出 循环 。 

14. 检查 OOB 和 正常 数据 之 前 的 变换 
600-605 如 果 在 处 理 mbuf 链 的 过 程 中 ，mbuf 的 类 型 发 生变 化 ， 则 立即 停止 传送 ， 以 确保 正 
贡 数 据 和 带 外 数据 不 会 混合 在 一 个 返回 的 报 文中 。 但 是 ， 这 种 检查 不 适用 于 TCP。 
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15. 更 新 OOB 标 记 
606-611 计算 当前 字 节 到 oobmark 之 间 的 长 度 来 限制 传送 的 大 小 ， 所 以 oobmark 的 前 一 个 
字 节 为 传送 的 最 后 一 个 字 节 。 传 送 的 大 小 同时 还 要 受 mbuf 大 小 的 限制 。 这 段 代码 同样 适用 于 
TOF, 
612-625 如 果 将 数据 传送 到 uio 缓 在， 则 调用 uiomove。 如 果 数 据 是 作为 一 个 mbuf 链 返回 
的 ， 则 更 新 uio_resid 的 值 ， 使 其 等 于 传送 的 字 古 数 。 

为 了 避免 在 传送 数据 过 程 中 协议 处 理 挂 起 的 时 间 太 长 ， 在 调用 uiomove 过 程 中 使 能 协议 
处 理 。 所 以 ， 在 uiomove 运 行 的 过 程 中 ， 接 收 缓存 中 可 能 会 出 现 新 的 数据 。 

图 16-48 中 描述 的 代码 说 明 调整 指针 和 偏 移 准 备 传送 下 一 个 mbuf。 


uipc_socket.c 


626 if (len -- m-»m len - moff) ( 

627 if (m-»m flags & M EOR) 

628 flags |= MSG, EOR; 

629 if (flags & MSG PEEK) ( 

630 m = m-»m next; 

631 orf e Q; 

632 ) else ( 

633 nextrecord - m-»m nextpkt; 

634 sbfree(&so-»so rcv, m); 

635 1f (mp) 4 

636 *mp c mn; 

637 mp = &m-»m next; 

638 So-»so rcv.sb mb = m = m-»m next; 
639 *nmo = (struct mbur *) 0; 
640 ) else ( 

641 MFREE(m, so-»so rcv.sb mb); 
642 m = So-»so rcv.sb mb; 

643 ) 

644 if (m) 

645 m-»m nextpkt - nextrecord; 
646 ) 

647 ) else ( 

648 if (flags & MSG PEEK) 

649 moff += len; 

650 else { 

651 if (mp) 

652 *mp = m copym(m, 0, len, M WAIT); 
653 m-»m data += len; 

654 m-»m len -- len; 

655 So-»so rcv.sb cc -= len; 

656 } 

657 } 


uipc_socket.c 


图 16-48 soreceivet&üZü. 更 新 缓存 


16. mbuf 处 理 完毕 了 吗 
626-646 如 果 mbuf 中 的 所 有 字 节 都 已 传送 完毕 ， 则 必须 丢弃 mbuf 或 将 指针 癌 前 移 。 如 采 
mbuf 中 包含 了 一 个 逻辑 记录 的 结尾 ， 还 应 设置 MSG_EOR。 如 果 将 MSG_PEEK 置 位 ， 则 
so_receive 跳 到 下 一 个 缓存 。 在 没有 将 MSG_PBEEK 置 位 的 情况 下 ， 如 果 数 据 已 通过 
uiomove 复 制 完成 ， 则 丢弃 这 块 缓存 ;或 者 如 果 数 据 是 作为 一 个 mbuf 链 返回 ， 则 将 缓存 添加 
到 mp 中 。 

16-49 包 含 处 理 OOB 偏 移 和 MSG_EOR 的 代码 段 。 
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658 if (so-»so, oobmark) ( wipe- pockel.e 
659 if ((flags & MSG_PEEK) == 0) { 
660 so->so_oobmark -= len; 
661 if (so->so_oobmark == 0) { 
662 so->so_state |= SS_RCVATMARK; 
663 break; 
664 } 
665 } else { 
666 offset += len; 
667 if (offset == so->so_oobmark) 
668 break; 
669 } 
670 } 
671 if (flags & MSG_EOR) 
672 break; 
uipc_socket.c 
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17. 更 新 OOB 标 记 
658-670 如 果 带 外 数据 标志 等 于 非 0， 则 将 其 减 去 已 传送 的 字 市 数 。 如 果 已 到 达标 记 处 ， 则 
将 SS_RCVRATMRRK 置 位 ，soreceive 跳 出 while 循 环 。 如 果 设 有 将 MSG_PEEK 置 位 ， 则 更 
新 offset， 而 不 是 so_oobmark。 

18. Z fRioK Eo 
671-672 如果 已 到 达 一 个 逻辑 记录 的 结尾 ， 则 soreceive 跳 出 mbuf 处 理 循 环 ， 因 而 不 会 
将 下 一 个 逻辑 记录 也 作为 这 个 报 文 的 一 部 分 返回 。 

在 图 16-50 中 ， 当 设置 了 MSG_WAITALL 标 志 ， 并 且 读 请 求 还 没有 完成 ， 则 循环 将 等 待 更 
多 的 数据 到 达 。 


uipc socket.c 
673 ' dii 
674 * If the MSG WAITALL flag is set (for non-atomic socket), 
675 * we must not quit until "uio-»uio resid -- 0" or an error 
676 * termination. If a signal/timeout occurs, return 
677 * with a short count but without error. 
678 * Keep sockbuf locked against other readers. 
679 wy 
680 while (flags & MSG_WAITALL && m == 0 && uio->uio_resid > 0 && 
681 ! sosendallatonce (so) && !nextrecord) { 
682 if (so->so_error || so->so_state & SS CANTRCVMORE) 
683 break; 
684 error = sbwait(&so-»so rcv); 
685 if (error) ( 
686 sbunlock(&so-»so rcv); 
687 splx(s); 
688 return (0); 
689 ) 
690 if (m = so-»so rcv.sb mb) 
691 nextrecord - m-»m nextpkt; 
692 ) 
693 ) /* while more data and more space to fill */ 


uipc socket.c 


图 16-$0 soreceive 畏 数 : MSG WAITALL 处 理 
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19. MSG WAITALL 
673-681 如 果 将 MSG_WAITALL 置 位 , 而 缓存 中 没有 数据 (m 等 于 0), 调用 者 需要 更 多 的 数据 ， 
sosendallatonce 为 假 ， 并 且 这 是 接收 缓存 中 的 最 后 一 个 记录 (nextrecord 为 空 )， 则 
soreceive 必 须 等 待 新 的 数据 。 

20. 差错 或 没有 数据 到 达 
682-683 如 果 差 错 出 现 或 连接 被 关闭 ， 则 退出 人 循环。 

21. 等 待 数据 到 达 
684-689 当 接 收 缓存 被 协议 层 改变 时 sbwait 返 回 。 如 果 sbwait 是 被 信号 中 断 (error 非 
0)， 则 soreceiveY 妈 返回 。 

22. 用 接收 缓存 同步 m 和 nextrecord 
690-692 更 新 m 和 nextrecord， 因 为 接收 缓存 被 协议 层 修改 了 。 如 果 数 据 到 达 mbuf， 则 m 
等 于 非 0，while 人 循环 结束 。 

23. 处 理 下 一 个 mbuf 
693 本 行 是 mbuf 处 理 循 环 的 结尾 。 控 制 返回 到 循环 开始 的 第 600 行 (图 16-47)。 一 旦 接收 缓存 
中 有 数据 ， 有 新 的 缓存 空间 ， 没 有 差错 出 现 ， 则 循环 继续 。 

如 果 soreceive 停 止 复制 数据 ， 则 执行 图 16-51 所 示 的 代码 段 。 


uipc_socket.c 
694 if (m && pr->pr_flags & PR, ATOMIC) ( 
695 flags |= MSG, TRUNC; 
696 if ((flags & MSG PEEK) == 0) 
697 (void) sbdroprecord(&so-»so rcv); 
698 ) 
699 if ((flags & MSG PEEK) == 0) ( 
700 it mo D) 
701 SO-»SO rcv.sb mb = nextrecord; 
702 if (pr-»pr flags & PR WANTRCVD && so-»so pcb) 
703 (*pr-»pr usrreq) (so, PRU RCVD, (struct mbuf *) O0, 
704 (struct mbuf *) flags, (struct mbuf *) 0, 
705 (struct mbuf *) 0); 
706 
707 if (orig_resid == uio->uio_resid && orig_resid && 
708 (flags & MSG_EOR) == 0 && (so->so_state & SS_CANTRCVMORE) == 0) { 
709 sbunlock(&so-»so rcv); 
710 splx(ís); 
pk goto restart; 
712 ) 
TL if (flagsp) 
714 *flagsp |- flags; 


uipc socket.c 
[16-51 soreceive 国 数 : 退出 处 理 


24. 被 截断 的 报 文 
694-698 如 果 因 为 进程 的 接收 缓存 太 小 而 收 到 一 个 被 截断 的 报 文 (数据 报 或 记录 )， 则 插口 层 
将 这 种 情况 通过 设置 MSG_TRUNC 来 通知 进程 , 报 文 的 被 截断 部 分 被 丢弃 。 同 其 他 接收 标志 一 样 ， 
进程 只 有 通过 recvmsg 系 统 调用 才能 获得 MSG_TRUNC， 即 使 soreceive 总 是 设置 这 个 标志 。 
25. 记录 结尾 的 处 理 
699-706 如果 没 有 将 MSG_PEEK 置 位 ， 则 下 一 个 mbuf 链 将 被 连接 到 接收 缓存 ， 并 且 如 采 发 
送 了 PRU_RCVD 协 议 请 求 ， 则 通知 协议 接收 操作 已 经 完成 。TCP 通 过 这 种 机 制 来 完成 对 连接 
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接收 窗口 的 更 新 。 

26. 没有 传送 数据 
707-712 如 果 soreceive 运 行 完 成 ， 没 有 传送 任何 数据 ， 没 有 到 达 记 录 的 结尾 ， 且 连接 的 
读 通 道 是 活动 的 ， 则 将 接收 缓存 解锁 ，soreceive 跳 回 到 restart 继 续 等 待 数据 。 
713-714 soreceive 中 设置 的 任何 标志 都 在 *flagsp 中 返回 ， 绥 存 被 解锁 ，soreceive 返 回 。 
讨论 

soreceive 是 一 个 复杂 的 函数 。 导 致 其 复杂 性 的 主要 原因 是 烦琐 的 指针 操作 及 对 多 种 类 
型 的 数据 ( 带 外 数据 、 地 址 、 控 制 信息 和 正常 数据 ) 和 多 目标 (进程 缓存 ，mbuf 链 ) 的 处 理 。 

同 sosend 类 似 ，soreceive 的 复杂 性 是 多 年 积累 的 结果 。 为 每 一 种 协议 编写 一 个 特殊 
的 接收 函数 将 会 模糊 插口 层 和 协议 层 之 间 的 边界 ， 但 是 可 以 大 大 简化 代码 。 

[Partridge and Pink 1993] 摘 述 了 一 个 专门 为 UDP 编写 的 soreceive 国 数 ， 其 功能 是 将 数 
据 报 从 接收 缓存 复制 到 进程 缓存 中 时 给 数据 报 求 检验 和 。 他 们 给 出 的 结论 是 : 修改 通用 的 
soreceive 国 数 来 支持 这 一 功能 将 “使 本 来 已 经 很 复杂 的 播 口子 程 序 变 得 更 加 复杂 。 


16.13 select 系统 调用 


在 下 面 的 讨论 中 ， 我 们 假定 读者 熟悉 select 调 用 的 基本 操作 和 含义 。 关 于 select 的 应 用 接口 
的 详细 摘 述 参考 [Stevens 1992], 
图 16-52 列 出 了 select 能 够 监控 的 插口 状态 。 


有 数据 可 读 
连接 的 读 通道 被 关闭 
listen 插 口 已 经 将 连接 排队 


插口 差错 未 处 理 

缓存 可 供 写 操作 用 ， 且 一 个 连接 存在 或 还 没有 连接 请 求 
连接 的 写 通道 被 关闭 

插口 差错 未 处 理 


[owamwuxam | | | 


图 16-52 ” select 系统 调用 : 插口 事件 


我 们 从 select 系 统 调用 的 第 一 部 分 开始 讨论 ， 如 图 16-53 所 示 。 

1. 验证 和 初始 化 
390-410 在 堆栈 中 分 配 两 个 数组 : ibits 和 obits， 每 个 数组 有 三 个 单元 ， 每 个 单元 为 一 个 
描述 符 集 合 。 用 bzezo 将 它们 清 0。 第 一 个 参数 na， 必须 不 大 于 进程 的 描述 符 的 最 大 数量 。 如 
果 nd 大 于 当前 分 配给 进程 的 描述 符 个 数 ， 将 其 减少 到 当前 分 配给 进程 的 拉 述 符 的 个 数 。ni 等 于 
用 来 存放 nd 比特 (1 个 描述 符 占 1 比特 ) 的 比特 掩 码 所 需 的 字 贡 数 。 例 如 ， 假 设 最 多 有 256 个 描述 符 
(FD _SETSIZE)，falset 表 示 一 个 32 比 特 的 整 型 (VFDBITS) 数 组 ， 有 日 nd 等 于 65， 那 么 : 

ni=howmany (65,32) x 4=3 x 4=12 


在 上 面 的 公式 中 ，howmany (x,y) 返 回 存储 x 比特 所 需要 的 长 度 为 y 比 特 的 对 象 的 数量 。 








Sys generic.c 


Sys generic.c 


42  TICP/IP;iÉ& %2: 实现 
390 struct select, args ( 
391 u, int nd; 
392 fd set *in, *ou, *ex; 
393 struct timeval *tv; 
394 ); 
395 select(p, uap, retval) 
396 struct proc *p; 
397 struct select, args *uap; 
398 int *retval; 
399 ( 
400 fd set  ibits[3], obits(3]; 
401 struct timeval atv; 
402 int s, ncoll, error s 0, timo; 
403 该 int ni; 
404 bzero((caddr t) ibits, sizeof(ibits)); 
405 bzero((caddr t) obits, sizeof(obits)); 
406 if (uap-»nd » FD, SETSIZE) 
407 return (EINVAL); 
408 if (uap-»nd > p-»p. fd-»fd nfiles) 
409 uap-»nd = p-»p. fd-»fd nfiles; /* forgiving; slightly wrong */ 
410 ni - howmany(uap-»nd, NFDBITS) * sizeof(fd mask); 
411 $define getbits (name, x) \ 
412 if (uap-»name && \ 
413 (error = copyin((caddr t)uap-»name, (caddr t)&ibits[x], ni))) \ 
414 goto done; 
415 getbits(in, 0); 
416 getbits(ou, 1); 
417 getbits(ex, 2); 
418 #undef getbits 
419 if (uap-»tv) { 
420 error = copyin((caddr t) uap-»tv, (caddr t) & atv, 
421 sizeof(atv)); 
422 if (error) 
423 goto done; 
424 if (itimerfix(&atv)) ( 
425 error - EINVAL; 
426 goto done; 
427 ) 
428 B = Splclockí): 
429 timevaladd(&atv, (struct timeval *) &time); 
430 timo - hzto(&atv); 
431 g” 
432 * Avoid inadvertently sleeping forever. 
433 al i 
434 if (timo ss 0) 
435 tino s 1j 
436 splx(s); 
437 } else 
438 timo = 0; 
[16-53 Select 国 数 ， 初 始 化 
2. 从 进程 复制 文件 描述 符 集 


411-418 getbits 宏 用 copyin 从 进程 那里 将 文件 描述 符 集合 传送 到 ibits 中 的 三 个 描述 


符 集合 


。 如 采摘 述 符 集 合 指针 为 空 ， 则 不 需 复制 。 
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3. 设置 超时 值 
419-438 如 果 tv 为 空 ， 则 将 timeo 置 成 0，select 将 无 限期 等 待 。 如 果 tv 非 空 ， 则 将 超时 值 复制 
到 内 核 ， 并 调用 itimerfix 将 超时 值 按 硬件 时 钟 的 分 辩 率 取 整 。 调 用 timevaladd 将 当前 时 间 加 到 
超时 值 中 。 调 用 hzto 计 算 从 启动 到 超时 之 间 的 时 钟 滴 答 数 ， 并 保存 在 timo 中 。 如 果 计 算出 来 的 结 
果 为 0， 将 timeo 置 1!， 从 而 防止 select 阻 塞 ， 实现 利用 全 0 的 timeval 结 构 来 实现 非 阻塞 操作 。 
select 的 第 二 部 分 代码 ， 如 图 16-54 所 示 。 其 作用 是 扫描 进 程 指示 的 文件 描述 符 ， 当 一 
个 或 多 个 描述 符 处 于 就 绪 状 态 或 定时 器 超时 或 信号 出 现时 返回 。 


E ae sys generic.c 

440 ncoll - nselcoll; 

441 p-»p.flag |= P. SELECT; 

442 error - selscan(p, ibits, obits, uap-»nd, retval); 

443 if (error || *retval) 

444 goto done; 

445 S - Splhigh(); 

446 /* this should be timercmp(&time, &atv, »-) */ 

447 if (uap-»tv && (time.tv sec > atv.tv sec || 

448 time.tv sec -- atv.tv sec && time.tv usec »- atv.tv usec)) ( 

449 splx(s); 

450 goto done; 

451 ) 

452 if ((p-»p flag & P SELECT) == 0 || nselcoll != ncoll) ( 

453 splx(s); 

454 | goto retry; 

455 ) 

456 p-»p flag &- ^P SELECT; 

457 error - tsleep((caddr t) & selwait, PSOCK | PCATCH, "select", timo); 

458 splx(s),; 

459 it (error sse 0) 

460 goto retry; 

461 done: 

462 p-»p flag &- ^P SELECT; 

463 /* select is not restarted after signals... */ 

464 if (error -- ERESTART) 

465 error - EINTR; 

466 if (error -- EWOULDBLOCK) 

467 error - 0; 

468 #Qefine putbits(name, x) \ 

469 if (uap-»name && \ 

470 (error2 = copyout((caddr t)&obits[x], (caddr t)uap-»name, ni))) \ 

471 error - error2; 

472 if (error ss 0) ( 

473 int error2; 

474 putbits(in, 0); 

475 putbits(ou, 1); 

476 putbits(ex, 2); 

477 #undef putbits 

478 ) 

479 return (error); 

480 ) : 

Sys_gQeneric.c 
图 16-54 _ select 国 数 :第 二 部 分 
4. 扫描 文件 描述 符 


439-442 从 retry 开 始 的 循环 直到 select 能 够 返回 时 人 退出。 在 调用 进程 的 控制 块 中 保存 
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全 局 整数 nselcol1l1 的 当前 值 和 P_SELECT 标 志 。 如 果 在 selscan( 图 16-55) 扫 描 文 件 描述 符 
期 间 出 现任 何 一 种 变化 ， 则 这 种 变化 表明 描述 符 的 状态 因为 中 断 处 理 而 发 生 改 变 ，select 必 
须 重新 扫描 文件 描述 符 。selscan 查 看 三 个 输入 的 描述 符 集合 中 的 每 一 个 描述 符 集 合 ， 如 果 
描述 符 处 于 就 绪 状 态 ， 则 在 输出 的 描述 符 集合 中 设置 匹配 的 描述 符 。 


OR sys_generic.c 
481 selscan(p, ibits, obits, nfd, retval) 
482 struct proc *p; 
483 fd set *ibits, *obits; 
484 int nfd, *retval; 
485 ( 
486 struct filedesc *fdp - p-»p fd; 
487 int msk, i, Jy fü: 
488 fd mask bits; 
489 struct file *fp; 
490 int n = 0; 
491 Static int flag[3] = 
492 (FREAD, FWRITE, 0); 
493 for (msk = 0; msk < 3; msk++) { 
494 for (2 = 0; i < nfd; i += NFDBITS) { 
495 bits = ibits[msk].fds bits[i / NFDBITS]; 
496 while ((j = ffs(bits)) && (fd = i + --3j) < nfd) 1 
497 : bits &s "(1 «« 1); 
498 fp = fdp-»fd ofiles[fd]; 
499 if (fp == NULL) 
500 return (EBADF); 
501 if ((*fp-»f ops-»fo select) (fp, flag[msk], p)) { 
502 FD SET(fd, &obits[msk]); 
503 n4; 
504 ) 
505 ) 
506 ) 
507 ) 
508 *retval = n; 
509 return (0); 
510 ) . 
sys generic.c 


图 16-55 selscan ğı 


5. 差错 或 一 些 描 述 符 准 备 就 绪 
443-444 如 果 差 错 出 现 或 描述 符 处 于 就 绪 状 态 ， 就 立即 返回 。 

6. 超时 了 吗 
445-451 如 果 进 程 提供 的 时 间 限 制 和 当前 时 间 已 经 超过 了 超时 值 ， 则 立即 返回 。 

7. 在 执行 selscan 期 间 状 态 发 生变 化 
452-455 selscan 可 以 被 协议 处 理 中 断 。 如 果 在 中 断 期 间 插口 状态 改变 ， 则 将 P_SELECT 
和 nselcoll 置 位 ， 晶 selscan 必 须 重新 扫描 所 有 描述 符 。 

8. 等 待 缓存 发 生变 化 
456-460 所 有 调用 select 的 进程 均 在 调用 sleep 时 用 selwait 作 为 等 竺 通道 。 如 图 16- 
60 所 示 ， 这 种 做 法 在 多 个 进程 等 待 同一 个 插口 缓存 的 情况 下 将 导致 效率 降低 。 如 果 tsleep 正 
确 返 回 ， 则 select 跳 转 到 zxetzy， 重 新 扫描 所 有 拉 述 符 。 
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9. 准备 返回 
461-480 在 aone 处 清除 P_SELECT， 如 果 差 错 代 码 为 ERESTRART， 则 修改 为 BINTR; 如 果 
差错 代码 为 BWOULDBLOCK， 则 将 差错 代码 置 成 0。 这 些 改 变 确保 在 select 调 用 期 间 大 信和 号 
出 现时 能 返回 BINTR; 者 超时 ， 则 返回 0。 


16.13.1 selscan ži 


select 国 数 的 核心 是 图 16-55$ 所 示 的 selscan 国 数 。 对 于 任意 一 个 摘 述 符 集 合 中 设置 的 
一 个 比特 ，selscan 找 出 同 它 相 关联 的 描述 符 ， 并 且 将 控制 分 散 给 与 描述 符 相 关联 的 
so_select 畏 数 。 对 于 插口 而 言 ， 就 是 soo_select 畏 数 。 

1. 定位 被 监视 的 描述 符 
481-496 第 一 个 foz 循 环 依次 查看 三 个 描述 符 集 合 : 读 ， 写 和 例外 。 第 二 个 fo 循环 在 每 
个 描述 符 集 合 内 部 循环 ， 这 个 循环 在 集合 中 每 隔 32 bit(NFDBITS) 循 环 一 次 。 

最 里 面 的 while 循 环 检查 所 有 被 32 bit 的 掩 码 标记 的 描述 符 ， 该 掩 码 从 当前 描述 符 集合 中 
获取 并 保存 在 bits 中 。 国 数 Efs 返 回 bits 中 的 第 一 个 被 设置 的 比特 的 位 置 ， 从 最 低位 开始 。 
例如 ， 如 果 bits 等 于 1000 (省 略 了 前 面 的 28 个 0)， 则 ffs (bits) 等 于 4。 

2. 轮 询 描述 符 
497-500 从 i 到 ffs 函 数 的 返回 值 ， 计 算 与 比特 相关 的 描述 符 ， 并 保存 在 fd 中 。 在 bits 中 
(而 不 是 在 输入 描述 符 集合 中 ) 清除 比特 ， 找 到 与 描述 符 相 对 应 的 Efile 结构 ， 调 用 fo_select。 

fo select 的 第 二 个 参数 是 ELlag 数 组 中 的 一 个 元 素 .msk 是 外 层 的 Eoz 循 环 的 循环 变量 。 
所 以 ， 第 一 次 循环 时 ， 第 二 个 参数 等 于 FRERD， 第 二 次 循环 时 等 于 FNWRITE， 第 三 次 循环 时 
等 于 0。 如 果 描 述 符 不 正确 ， 则 返回 EBBADP。 

3. 描述 符 准 备 就 绪 
501-504 当 发 现 某 个 描述 符 的 状态 为 准备 就 绪 时 ， 设 置 输出 描述 符 集合 中 相对 应 的 比特 位 。 
并 将 n (状态 就 绪 的 描述 符 的 个 数 ) 加 1。 

505-510 循环 继续 直到 轮 询 完 所 有 描述 符 。 状 态 就 绪 的 描述 符 的 个 数 通过 *zretval 返 回 。 


16.13.2 soo select% 


对 于 selscan 在 输入 描述 符 集 合 中 发 现 的 每 一 个 状态 就 绪 的 摘 述 符 ，selscan 调 用 与 摘 
述 符 相关 的 fileops 结 构 ( 参 考 第 15.5 节 ) 中 的 fo_select 指 针 引 用 的 函数 。 在 本 书 中 ， 我 们 
只 对 插口 描述 符 和 图 16-56 所 示 的 soo_select 了 函数 感 兴趣 。 
sys_socket.c 


105 soo -select (fp, which, p) 
106 struct file *fp; 


107 int which; 

108 strüct proc *p; 

109 ( 

110 struct socket *so = (struct socket *) fp-»f data; 
IEL int S = splnet(); 

112 switch (which) ( 

113 case FREAD: 

114 if (soreadable(so)) ( 


图 16-56 soo select p% 
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115 splix(s); 

116 return (1); 

117 ) 

118 selrecord(p, &so-»so, rcv.sb, sel); 
119 So-»so rcv.sb flags |= SB, SEL; 
120 break; 

121 case FWRITE: 

122 if (sowriteable(so)) ( 

123 splix(s); 

124 return (1); 

125 ) 

126 selrecord(p, &so-»so snd.sb sel); 
127 So-»so snd.sb flags |= SB, SEL; 
128 break; 

129 case O0: 

130 if (so-»so oobmark || (so-»so state & SS RCVATMARK)) ( 
131 splx (s); 

132 return (1); 

133 } 

134 selrecord(p, &so-»so rcv.sb sel); 
135 So-»so rcv.sb flags |= SB SEL; 
136 break; 

137 ) 

138 Splix(s); 

139 return (0); 

140 ) 


sys socket.c 
图 16-56 (£&) 


105-112 soo_select 每 次 被 调用 时 ， 它 只 检查 一 个 描述 符 的 状态 。 如 果 相 对 于 which 中 指定 
的 条 件 ， 描 述 符 处 于 就 绪 状 态 ， 则 立即 返回 1。 如 果 找 述 符 没 有 处 于 就 绪 状 态 ， 就 用 selrecord 
标记 插口 的 接收 缓存 或 发 送 缓存 ， 指 示 进 程 正 在 选择 该 缓 在， 然后 soo_select 返 回 0。 

图 16-52 显 示 了 插口 的 读 、 写 和 例外 情况 。 我 们 将 看 到 soo_select 使 用 了 soreadable 
和 sowriteable 宏 ， 这 些 宏 在 sys/socketvar.h 中 定义 。 

1. 插口 可 读 吗 
113-120 soreadable 宏 的 定义 如 下 : 


#define soreadable(so) ^ 


((so)-»so rcv.sb cc >= (so)-»so rcv.sb lowat || * 
((so)-»so state & SS CANTRCVMORE) || ^ 
(so)-»so qlen || (so)-»so error) 


因为 UDP 和 TCP 的 接收 下 限 默 认 值 为 1 (图 16-4)， 下 列 情况 表示 插口 是 可 读 的 : 接收 缓存 
中 有 数据 ， 连 接 的 读 通道 被 关闭 ， 可 以 接受 任何 连接 或 有 挂 起 的 差错 。 

2. 插口 可 写 吗 
121-128 sowriteable 宏 的 定义 如 下 : 


#define sowriteable(so) WV 
(sbspace(&(so)-»so snd) >= (so)-»so snd.sb lowat && \ 


(((so)-»so state&SS ISCONNECTED) || \ 
((so)-»so proto-»pr flags&PR CONNREQUIRED)--0) || ^ 
((so)-»so state & SS CANTSENDMORE) || ^ 


(so)-»so error) 


TCP 和 UDP 默认 的 发 送 低 水 位 标记 是 2048。 对 于 UDP 而 言 ，sowziteab1le 总 是 为 真 ， 因 


#16 4$ wv IO 427 


为 sbspace 总 是 等 于 sb_hiwat， 当 然 也 总 是 大 于 或 等 于 so_lowat， 且 不 要 求 连 接 。 

对 于 TCP 而 言 ， 当 发 送 缓存 中 的 可 用 空间 小 于 2048 个 字 节 时 ， 播 口 不 可 写 。 其 他 的 情况 
在 图 16-52 中 讨论 。 

3. 还 有 挂 起 的 例外 情况 吗 
129-140 对 于 例外 情况 ， 需 检查 标志 so_oobmark 和 SS _RECVATMARK。 直 到 进程 读 完 数 
据 流 中 的 同步 标记 后 ， 例 外 情况 才 可 能 存在 。 


16.13.3 selrecord 函 数 


图 16-57 显 示 同 发 送 和 接收 缓存 存储 在 一 起 的 selinfo 结 构 的 定义 (图 16-3 中 的 sb_sel 成 
员 )。 


41 struct selinfo ( RUF 
42 bpid.t si. pid; /* process to be notified */ 
43 short si flags; /* 9 or ST COLL */ 
44 ); 
select.h 


16-57 selinfo 结 构 


41-44 ” 当 只 有 一 个 进程 对 某 一 给 定 的 插口 缓存 调用 select 时 ，s1l_pid 等 于 等 待 进程 的 进 
程 标志 符 。 当 其 他 的 进程 对 同一 缓存 调用 select 时 ,设置 sl1_f1lags 中 的 SI_COLL 标 志 。 
将 这 种 情况 称 为 冲突 。 这 个 标志 是 目前 sl1_f1lags 中 唯一 已 定义 的 标志 。 

当 soo_select 发 现 描述 符 不 在 就 绪 状 态 时 就 调用 selrecord 函 数 ， 如 图 16-58 所 示 。 
该 函数 记录 了 足够 的 信息 ， 使 得 缓存 内 容 发 生变 化 时 协议 处 理 层 能 够 唤醒 进程 。 


522 void 595-8 en 
523 selrecord(selector, sip) 
524 struct proc *selector; 
525 struct selinfo *sip; 
526. { 
527 strüct proc wps 
528 pid.t mypid; 
529 mypid - selector-»p pid; 
530 if (sip-»si. pid -- mypid) 
531 return; 
532 if (sip-»si. pid && (p = pfind(sip-»si. pid)) && 
533 p-»p wchan == (caddr t) & selwait) 
534 sip-»si flags |= SI COLL; 
535 else 
536 Sip-»si pid = mypid; 
537 ) : 
sys generic.c 
图 16-58 selrecord K% 
1. 重复 选择 描述 符 


522-531 selrecord 的 第 一 个 参数 指向 调用 select 进 程 的 proc 结 构 。 第 二 个 参数 指 问 
selinfo 记 录 ， 该 记录 的 so snd.sb sel 和 so rcv.sb _ sel 可 能 会 被 修改 。 如 果 
selinfo 中 已 记录 了 该 进程 的 信息 ， 则 立即 返回 。 例 如 ， 进 程 对 同一 个 描述 符 调 用 select 
查询 读 和 例外 情况 时 ， 国 数 就 立即 返回 。 
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2. 同 另 一 个 进程 的 操作 冲突 吗 
532-534 如 果 另 一 个 进程 已 经 对 同一 插口 缓存 执行 select 操 作 ， 则 设置 SI_CoLL。 
3. 没有 冲突 
535-537 如果 调 用 没有 发 生 冲 突 ， 则 si_pia 等 于 0， 将 当前 进程 的 进程 标志 符 赋 给 


si pid, 
16.13.4 selwakeuptf Zl 


当 协 议 处 理 改变 插口 缓存 的 状态 ， 并 且 只 有 一 个 进程 选择 了 该 缓存 时 ，Net/3 就 能 根据 
selinfo 结 构 中 记录 的 信息 立即 将 该 进程 放 入 运行 队列 。 

当 插 口 缓存 发 生变 化 但 是 有 多 个 进程 选择 同一 插口 缓存 时 (设置 了 SI_COLL)，Net/3 就 无 
法 确定 哪些 进程 对 这 种 缓存 变化 感 兴趣 。 我 们 在 讨论 图 16-54 中 的 代码 段 时 就 已 经 指出 ， 每 一 
个 调用 select 的 进程 在 调用 tsleep 时 使 用 selwait 作 为 等 待 通道 。 这 意味 着 对 应 的 
wakeup 将 唤醒 所 有 阻塞 在 select 上 的 进程 一 一 甚至 是 对 缓存 的 变化 不 关心 的 进程 。 

图 16-59 说 明 如 何 调 用 selwakeup。 








sowakeup 









sowwakeup 


发 送 缓存 已 改变 


sorwakeup 


接收 缓存 已 改变 


sohasoutofband 


OOB 数 据 已 到 达 








图 16-$9 selwakeup 处 理 


当 改变 播 口 状 态 的 事件 出 现时 ， 协 议 处 理 层 负责 调用 图 16-59 的 底部 列 出 的 一 个 函数 来 通 
知 插口 层 。 图 16-59 底 部 显示 的 三 个 国 数 都 将 导致 selwakeup 被 调用 ， 在 插口 上 选择 的 任何 
进程 将 被 调度 运行 。 

selwakeuprtKZ Anl 16-60Bpzr , 
541-548 如 果 si_pid 等 于 0， 表 明 没 有 进程 对 该 缓存 执行 select 操 作 ， 函 数 立 即 返 回 。 

在 冲突 中 唤醒 所 有 进程 
549-553 如果 多 个 进程 对 同一 插口 执行 sSelect 操 作 ， 将 nselcoll 加 1， 清 除 冲 突 标志 ， 
唤醒 所 有 阻塞 在 select 上 的 进程 。 正 如 图 16-54 中 讨论 的 ， 进 程 在 ksleep 中 阻塞 之 前 大 组 
存 发 生 改 变 ，nselcol1 能 使 select 重 新 扫描 描述 符 ( 习 题 16.9)。 
554-567 如果 si_pid 标 识 的 进程 正在 selwait 中 等 待 ， 则 调度 该 进程 运行 。 如 条 进 程 是 在 
其 他 等 待 通 道中， 则 清除 P_SELECT 标 志 。 如 果 对 一 个 正确 的 摘 述 符 执 行 selzrecord， 则 调用 
进程 可 能 正在 其 他 的 等 待 通 道中 等 待 ， 然 后 ，selscan 在 描述 符 集 合 中 发 现 一 个 差错 的 文件 摘 
述 符 ， 并 返回 EBADF， 不 清除 以 前 修改 的 selinfo 记 录 。 到 selwakeup 运 行 时 ，selwakup 
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可 能 会 发 现 sel_pid 标 识 的 进程 不 再 在 插口 缓存 等 待 ， 从 而 忽略 selinfo 中 的 信息 。 

如 采 没 有 出 现 多 个 进程 共享 同一 个 描述 符 的 情况 (也 就 是 同一 块 插 口 缓存 )， 当 然 这 种 情况 
人 很 少 ， 则 只 有 一 个 进程 被 selwakeup 唤 醒 。 在 作者 使 用 的 机 器 上 ，nselcoll 总 是 等 于 0， 这 
说 明 select 冲 突 是 很 少 发 生 的 。 


54l void SyS generic.c 

542 selwakeup(sip) 

543 struct selinfo *sip; 

544 ( 

545 Struct proc *p; 

546 int S; 

547 if (sip-»si.pid == 0) 

548 return; 

549 if (sip-»si. flags & SI COLL) ( 

550 nselcoll-«-; 

551 sip-»si, flags &- ^SI. COLL; 

552 wakeup((caddr t) & selwait); 

553 ) 

554 p = pfind(sip-»si. pid); 

555 Sip-»si pid = 0; 

556 it (p "= NULL) ( 

557 S = Splhigh(); 

558 if (p-»p wchan == (caddr.t) & selwait) ( 

559 if (p-»p stat == SSLEEP) 

560 setrunnable(p); 

561 else 

562 unsleep(p); 

563 ) else if (p-»p flag & P. SELECT) 

564 p-»p flag &= ^P SELECT; 

565 splx (s); 

566 } 

567 ) : 
sys generic.c 


16-60 selwakeup fk% 


16.14 小 结 


本 章 介绍 了 插口 的 读 、 写 和 选择 系统 调用 。 

我 们 了 解 到 sosend 处 理 插口 层 与 协议 处 理 层 之 间 的 所 有 输出 ， 而 soreceive 处 理 所 有 
输入 。 

本 章 还 介绍 了 发 送 缓存 和 接收 缓存 的 组 织 结构 ， 以 及 缓存 的 高 、 低 水 位 标记 的 默认 值 和 
ex. 

本 章 的 最 后 一 部 分 介绍 了 select 系 统 调 用 。 从 这 部 分 内 容 中 我 们 了 解 到 ， 当 只 有 一 个 进 
程 对 摘 述 符 执 行 select 调 用 时 ， 协 议 处 理 层 仅仅 唤醒 selinfo 结 构 中 标识 的 那个 进程 。 当 
有 多 个 进程 对 同一 个 描述 符 执 行 select 操 作 而 发 生 冲 突 时 ， 协 议 层 只 能 唤醒 所 有 等 待 在 该 描 
述 符 上 的 进程 。 


习题 
16.1 当 将 一 个 大 于 最 大 的 正 的 有 符号 整数 的 无 符号 整数 传 给 write 系 统 调用 时 ， 
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16.3 


16.4 


16.5 


16.6 


16.7 


16.8 
16.9 
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sosend 中 的 resid 如 何 变 化 ? 

当 sosend 将 小 于 MCLBYTES 个 字 贡 的 数据 放 人 徐 中 时 ，space 被 减 去 MCLBYTES ， 
可 能 会 成 为 一 个 负数 ， 这 会 导致 为 atomic 协 议 填写 mbuf 的 循环 结束 。 这 种 结果 是 
正常 的 吗 ? 

数据 报 和 流 协议 有 着 不 同 的 语义 。 将 sosend 和 soreceive 函 数 分 别 分 成 两 个 消 
数 ， 一 个 用 来 处 理 报 文 ， 另 一 个 用 来 处 理 流 。 除 了 使 得 代码 清晰 外 ， 这 样 做 还 有 什 
么 好 处 ? 

对 于 PR_ATOMIC 协 议 ， 每 一 个 写 调用 都 指定 了 一 个 隐 含 的 报 文 边界 。 插 口 层 将 这 
个 报 文 作 为 一 个 整体 交 给 协议 。MSG_EOR 标 志 人 允许 进程 显 式 指定 报 文 边界 。 为 什 
么 仅 有 隐 含 的 报 文 边 界 是 不 够 的 ? 

如 果 插 口 描述 符 没 有 标记 为 非 阻 塞 ， 且 进程 也 没有 指定 MSG_DONTWAIT， 当 
sosend 不 能 立即 获取 发 送 缓存 上 的 锁 时 ， 结 果 如 何 ? 

在 什么 情况 下 ， 虽 然 sb cc<sb hiwat, 但 sbspace 仍 然 报告 没有 闲置 空间 ?为 
什么 在 这 种 情况 下 进程 应 该 被 阻塞 ? 

为 什么 ecvit 不 将 控制 报 文 的 长 度 而 是 将 名 字 长 度 返 回 给 进程 ? 

为 什么 soreceive 要 清除 MSG EOR? 

如 果 将 nselcoll 代 码 从 select 和 selwakeup 中 删除 ， 会 有 什么 问题 ? 


16.10 修改 select 系 统 调用 ， 使 得 select 返 回 时 返回 定时 器 的 剩余 时 间 。 


第 17 章 插口 选项 


本 章 讨 论 修改 插口 行为 的 几 个 系统 调用 ， 以 此 来 结束 插口 层 的 介绍 。 

setsockopt 和 getsockopt 系 统 调用 已 在 8.8 市 中 介绍 过 , 主要 描述 访问 IP 特 点 的 选项 。 
在 本 章 中 ， 我 们 将 介绍 这 两 个 系统 调用 的 实现 以 及 通过 它们 来 控制 的 插口 级 选项 。 

ioct1 国 数 在 4.4 节 中 已 介绍 过 ， 在 4.4 节 中 ， 我 们 描述 了 用 于 网 络 接口 配置 的 与 协议 无 关 
的 ioct1 命 令 。 在 6.7 节 中 ， 我 们 描述 了 用 来 分 配 网 络 掩 码 以 及 单 播 、 多 播 和 目的 地 址 的 IP 专 
用 的 ioct1 命 令 。 本 章 我 们 将 介绍 ioct1 的 实现 和 fcnt1 国 数 的 相关 特点 。 

最 后 ， 我 们 介绍 getsockname 和 getpeername 系 统 调用 ， 它 们 用 来 返回 插口 和 连接 的 
地 址 信息 。 

图 17-1 列 出 了 实现 插口 选项 系统 调用 的 函数 。 es VIE D SCIT ER 





pr ctloutout 






< (tep, ctloutput rip ctloutput 





: 
17-1 setsockopt 和 getsockopt 系统 调 用 
17.2 代码 介绍 
本 章 中 涉及 的 源 代 码 来自 图 17-2 中 列 出 的 4 个 文件 。 
说 HH 


kern/kern descrip.c fcnt1 系 统 调用 


kern/uipc syscalls.c setsockopt, getsockopt, getsocknamef[lgetpeername Jti HH 
kern/uipc socket.c 插口 层 对 setsockopt 和 getsockopt 的 处 理 
kern/sys socket.c ioct1 系 统 调用 对 插口 的 处 理 


图 17-2 本 章 讨论 的 源 文件 
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全 局 变量 和 统计 量 
本 章 中 描述 的 系统 调用 设 有 定义 新 的 全 局 变量 ， 也 设 有 收集 任何 统计 量 。 
17.3 setsockopt 系 统 调 用 


图 8-29 列 出 了 图 数 setsockopt (和 getsockopt) 能 够 访问 的 各 种 不 同 的 协议 层 。 本 章 
主要 关注 SOL_SOCKET 级 的 选项 ， 这 些 选 项 在 图 17-3 中 列 出 。 


SO_SNDBUF int so snd.sb hiwat 发 送 缓存 高 水 位 标记 

SO RCVBUF int so rcv.sb hiwat | 接收 缓存 高 水 位 标记 

SO SNDLOWAT int so snd.sb lowat| 发 送 缓 存 低 水 位 标记 

SO RCVLOWAT int so rcv.sb lowat | 接收 缓存 低 水 位 标记 

SO SNDTIMEO struct timeval| so snd.sb timeo| 发 送 超时 值 

SO RCVTIMEO struct timeval| so snd.sb timeo 接收 超时 值 

SO DEBUG int so options 记录 插口 调试 信息 

SO REUSEADDR int so options 插口 能 重新 使 用 一 个 本 地 地 址 

SO REUSEPORT  |int so options 插口 能 重新 使 用 一 个 本 地 端口 

SO KEEPALIVE int so options 协议 查询 空闲 的 连接 

SO DONTROUTE int So options 旁 路 路 由 表 

SO BROADCAST int So options 插口 支持 广播 报 文 

SO USELOOPBACK | int so options 仅 用 于 选 路 域 插口 ， 发 送 进程 接收 自己 的 选 
路 报 文 

SO OOBINLINE int So options 协议 排队 内 联 的 带 外 数据 

SO LINGER struct linger | so linger 播 口 关闭 但 仍 发 送 剩 余数 据 

SO ERROR int So error 获取 差错 状态 并 清除 ， 只 用 于 getsockopt 

SO TYPE int so type 获取 插口 类 型 ， 只 用 于 get sockopt 

其 他 返回 ENOPROTOOPT 





图 17-3 setsockoptfllgetsockopt yt Jii 
setsockopt KAURA  . 


int setsockopt(int s, int level, int optname, void *optval, int optlen) ; 

图 17-4 显 示 了 setsockopt 调 用 的 源 代 码 。 
565-597 getsock 返 回 插口 描述 符 的 file 结 构 。 如 果 val 非 空 ， 则 将 valsize 个 字 节 的 
数据 从 进程 复制 到 用 m_get 分 配 的 mbuf 中 。 与 选项 对 应 的 数据 长 度 不 能 超过 MLEN 个 字 节 ， 所 
以 ， 如 果 valsize 大 于 MLEN， 则 返回 EINVAL。 调 用 sosetopt， 并 返回 其 值 。 


565 struct setsockopt_args { uipc_syscalls.c 
566 int S; 

567 int level; 

568 int name; 

569 caddr. t val; 

570 int valsize; 

572 }; 


572 setsockopt (p, uap, retval) 
573 struct proc *p; 

574 struct setsockopt args *uap; 
515 int *retval; 


图 17-4 setsockopt 系统 调用 
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576 ( 
577 struct flle "fp; 
578 struct mbuf *m = NULL; 
579 int error; 
580 if (error - getsock(p-»p fd, uap-»s, &fp)) 
581 return (error); 
582 if (uap-»valsize » MLEN) 
583 return (EINVAL); 
584 if (uap-»val) ( 
585 m = m get (M_WAIT, MT SOOPTS); 
586 if (m == NULL) 
587 return (ENOBUFS); 
588 if (error = copyin(uap-»val, mtod(m, caddr t), 
589 (u int) uap-»valsize)) ( 
590 (void) m free (m); 
591 return (error); 
592 } 
593 m-»m len - uap-»valsize; 
594 ) 
595 return (sosetopt((struct socket *) fp-»f data, uap-»level, 
596 uap-»name, m)); 
597 } 
uipc syscalls.c 
图 17-4 (£3) 
sosetopt A% 


sosetopt 函数 处 理 所 有 插口 级 的 选项 ， 并 将 其 他 的 选项 传 给 与 插口 关联 的 协议 的 
pr_ctloutput 函 数 。 图 17-5 列 出 了 sosetopt 函 数 的 部 分 代码 。 


uipc_socket.c 

752 sosetopt (so, level, optname, m0) 
753 struct socket *so; 
754 int level, optname; 
755 struct mbuf *m0; 
756 ( 
751 int error z 0; 
758 struct mbuf *m - m0; 
759 if (level !- SOL SOCKET) ( 
760 if (so-»so proto && so-»so proto-»pr ctloutput) 
761 return ((*so-»so. proto-»pr ctloutput) 
762 (PRCO SETOPT, so, level, optname, &m0)); 
763 error - ENOPROTOOPT; | 
764 ) else ( 
765 switch (optname) ( 

/* socket option processing */ . 
841 default: 
842 error - ENOPROTOOPT; 
843 break; 
844 ) 
845 if (error == 0 && so-»so proto && so-»so proto-»pr ctloutput) ( 
846 (void) ((*so-»so proto-»pr. ctloutput) 
847 (PRCO SETOPT, so, level, optname, &m0)); 


[17-5 sosetopt Á% 
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848 m = NULL; /* freed by protocol */ 
849 ) 
850 ) 
851 bad: 
852 if (m) 
853 (void) m free (m); 
854 return (error); 
855 ) ; 
uipc socket.c 
图 17-5 (£x) 


752-764 如 果 选 项 不 是 插口 级 的 (SOL_SOCKET) 选 项 ， 则 给 底层 协议 发 送 PRCO_SETOPT 请 
求 。 注 意 : 调用 的 是 协议 的 pr_ctloutput 印 数 ， 而 不 是 它 的 pr_usrreq 轩 数 。 图 17-6 说 
明了 Internet 协 议 调用 的 pr ctloutputiRZ., 


UDP ip ctloutput 8.845 
TCP tcp ctloutput 30.645 
ICMP 


IGMP rip ctloutput 和 ip ctloutput 8.8 节 和 32.8 市 
原始 IP 









图 17-6 pr_ctloutput pÁ% 


765 Switch 语句 处 理 搬 口 级 的 选项 。 
841-844 对 于 不 认识 的 选项 ， 在 保存 它 的 mbuf 被 释放 后 返回 ENOPROTOOPT。 
845-855 如果 没有 出 现 差错 ， 则 控制 总 是 会 执行 到 switch。 在 switch 语 句 中 ， 如 果 协 议 
层 需 要 响应 请 求 或 插口 层 ， 则 将 选项 传送 给 相应 的 协议 。Internet 协 议 中 没有 预期 处 理 插口 级 
的 选项 。 

注意 ， 如 果 协 议 收 到 不 预期 的 选项 ， 则 直接 将 其 pr_ctloutput 函 数 的 返回 值 丢 弃 。 并 
将 m 置 空 ， 以 免 调 用 m_free， 因 为 协议 负责 释放 缓存 。 

图 17-7 说 明了 1ingez 选 项 和 在 插口 结构 中 设置 单一 标志 的 选项 。 
766-772 1Lingezr 选 项 要 求 进 程 传人 Lingez 结 构 : 

struct linger { 

int l onoff; /* option on/off */ 


int l_linger; /* linger time in seconds */ 

H 

确保 进程 已 传人 长 度 为 1ingez 结 构 大 小 的 数据 后 ， 将 结构 成 员 1_1ingez 复 制 到 
so_linger 中 。 在 下 一 组 case 语 句 后 决定 是 使 能 还 是 关闭 该 选项 。so_1linger 和 close 系 
统 调用 在 15.15 市 中 已 介绍 过 。 
773-789  ” 当 进 程 传 入 一 个 非 0 值 时 ， 设 置 选 项 对 应 的 布尔 标志 ; 当 进 程 传 入 的 是 0 时 ， 将 对 
应 标志 清除 。 第 一 次 检查 确保 一 个 整数 大 小 (或 更 大 ) 的 对 象 在 mbuf 中 ， 然 后 设置 或 清除 对 应 
的 选项 。 

图 17-8 显 示 了 插口 缓存 选项 的 处 理 。 
790-815 这 组 选项 改变 插口 的 发 送 和 接收 缓存 的 大 小 。 第 一 个 if 语 句 确 保 提供 给 四 个 选项 
的 变量 是 整 型 。 对 于 SO_SNDBUF 和 SO_RCVBUF，sbreserve 只 调整 缓存 的 高 水 位 标记 而 不 
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分 配 缓存 。 对 于 SO_SNDLOWAT 和 SO_RCVLOWAT， 调 整 缓存 的 低 水 位 标记 。 





766 
767 
768 
769 
770 
711 
772 


TTS 
774 
719 
776 
7771 
778 


779 - 


780 
781 
782 
783 
784 
785 
786 
787 
788 
789 


790 
791 
792 
793 
794 
795 
796 
797 
798 


799 
800 
801 
802 
803 
804 
805 
806 
807 


808 
809 
810 
811 
812 
813 
814 
815 


case 


case 
case 
case 
case 
case 
case 
case 
case 


SO, LINGER: 


if (m == NULL || m-»m len !- sizeof(struct linger)) ( 


error - EINVAL; 

goto bad; 
) 
So-»so linger = mtod(m, struct linger *)-»1, linger; 
/* fail thru... *f 


SO, DEBUG: 

SO KEEPALIVE: 
SO, DONTROUTE: 
SO USELOOPBACK: 
SO BROADCAST: 
SO REUSEADDR: 


SO REUSEPORT: 

SO OOBINLINE: 

if (m == NULL || m-»m len < sizeof(int)) { 
error - EINVAL; 
goto bad; 


) 
if (*mtod(m, int *J) 


SO-»SO options |= optname; 
else 

SO-»SO options &- "^optname; 
break; 


图 17-7 sosetopt 国 数 :， 1inger 和 标志 选项 


case SO, SNDBUF: 
case SO RCVBUF: 
case SO, SNDLOWAT: 
case SO, RCVLOWAT : 


if (m == NULL || m-»m len < sizeof(int)) ( 
error - EINVAL; 
goto bad; 


) 
switch (optname) ( 


case SO SNDBUF: 
case SO, RCVBUF: 
if (sbreserve(optname -- SO SNDBUF ? 
&so-»so, snd : &so-»so rcv, 


(u long) * mtod(m, int *)) == O0) 
error - ENOBUFS; 
goto bad; 
) 
break; 


case SO SNDLOWAT: 
so-»so snd.sb lowat = *mtod(m, int *); 
break; 

case SO RCVLOWAT: 
So-»so rcv.sb lowat = *mtod(m, int *); 
break; 

) 


break; 


图 17-8 sosetopt Á% 插口 缓存 选项 


uipc socket.c 


uipc socket.c 


uipc socket.c 


uipc socket.c 


436 TCP/IPzÉE& X2. 实现 
图 17-9 说 明 超 时 选项 。 
816 case SO SNDTIMEO: 
817 case SO RCVTIMEO: 
818 ( 
819 struct timeval *tv; 
820 short val; 
821 if (m == NULL || m-»m len < sizeof(*tv)) ( 
822 error - EINVAL; 
823 goto bad; 
824 ) 
825 tv - mtod(m, struct timeval *); 
826 if (tv-»tv sec > SHRT MAX / hz - hz) ( 
827 error = EDOM; 
828 goto bad; 
829 } 
830 val = tv->tv_sec * hz + tv->tv_usec / tick; 
831 switch (optname) { 
832 case SO_SNDTIMEO: 
833 so->so_snd.sb_timeo = val; 
834 break; 
835 case SO_RCVTIMEO: 
836 so->so_rcv.sb_timeo = val; 
837 break; 
838 } 
839 break; 
840 } 


图 17-9 sosetopt 国 数 : 超时 选项 


uipc socket.c 


uipc socket.c 


816-824 ”进程 在 timeval 结 构 中 设置 S0 CSNDTIMEO 和 SO RCVTIMEO 选 项 的 超时 值 。 如 

果 传 信 的 数值 不 正确 ， 则 返回 EINVAL。 

825-830 存储 在 timeval 结 构 中 的 时 间 间 隔 值 不 能 太 大 ， 因 为 sb_timeo 是 一 个 短 整数 ， 

当时 间 间 隔 值 的 单位 为 一 个 时 钟 滴 答 时 ， 时 间 间 隔 值 的 大 小 就 不 能 超过 一 个 短 整 数 的 最 大 值 。 
第 826 行 代码 是 不 正确 的 。 在 下 列 条 件 下 ， 时 间 间 隔 不 能 表示 为 一 个 短 整 数 : 


tv usec 
tv secXxXhzt— ——— —»SHRT MAX 
v tick 


其 中 , tick=1000000/hz 和 SHRT MAX-32767, 
所 以 ， 如 打下 列 不 等 式 成 立 ， 则 返回 。 


tv sec» 


等 式 的 最 后 一 项 不 是 代码 指明 的 hz。 正 确 的 测试 代码 应 该 是 : 


if (tv->tv_sec * hz«tv-»tv usec/tick»SHRT MAX) 


error-zEDOM; 

习题 17.3 中 有 更 详细 的 讨论 。 
831-840 将 转换 后 的 时 间 val1 保 存在 请 求 的 发 送 或 接收 缓存 中 。sb_ timeo 限 制 了 进程 等 
待 接收 缓存 中 的 数据 或 发 送 缓存 中 闲置 空间 的 时 间 。 详 细 讨论 参考 16.7 节 和 16.11 节 。 


SHRT MAX tv usec SHRT MAX tv usec 


hz tickxhz hz 1000000 


超时 值 是 传 给 tsleep 的 最 后 一 个 参数 ， 因 为 tsleep 要 求 超时 值 为 一 个 整数 ， 所 以 


进程 最 多 只 能 等 待 65535 个 时 钟 滴答 。 假 设 时 钟 频率 为 100 Hz， 则 等 待 时 间 小 于 11 分 钟 。 
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17.4 getsockopt 系 统 调 用 
getsockopt 返 回 进程 请 求 的 插口 和 协议 选项 。 函 数 原型 是 : 


int getsockopt (int s, int level, int name, caddr t val, int *valsize); 


该 调用 的 源 代 码 如 图 17-10 所 示 。 





598 struct getsockopt_args { OA 
599 int S; 

600 int level; 

601 int name; 

602 caddr t val; 

603 int *avalsize;: 

604 ); 

605 getsockoptí(p, uap, retval) 

606 struct proc *p; 

607 struct getsockopt args *uap; 

608 int *retval; 

609 ( 

610 struct file *fp; 

611 struct mbuf *m - NULL; 

612 int valsize, error; 

613 if (error = getsock(p-»p fd, uap-»s, &fp)) 

614 return (error); 

615 if (uap-»val) ( 

616 if (error - copyin((caddr t) uap-»avalsize, (caddr.t) & valsize, 
617 sizeof(valsize))) 

618 return (error); 

619 ) else 

620 valsize - 0; 

621 if ((error = sogetopt((struct socket *) fp-»f data, uap-»level, 
622 uap-»name, &m)) -- 0 && uap-»val && valsize && m !- NULL) ( 
623 if (valsize » m-»m len) 

624 valsize - m-»m len; 

625 error - copyout(mtod(m, caddr t), uap-»val, (u int) valsize); 
626 if (error == 0) 

627 error - copyout((caddr t) & valsize, 

628 (caddr. t) uap-»avalsize, sizeof(valsize)); 
629 ) 

630 if (m l= NULL) 

631 (void) m free(m); 

632 return (error); 

633 3 





uipc syscalls.c 
图 17-10 getsockopt 系统 调用 

598-633 这 段 代 码 现 在 看 上 去 应 该 很 熟悉 了 。getsock 获 取 插 口 的 file 结 构 ， 将 选项 缓 

存 的 大 小 复制 到 内 核 ， 调 用 sogetopt 来 获取 选项 的 值 。 将 sogetopt 返 回 的 数据 复制 到 进 

程 提供 的 缓存 ， 可 能 还 需要 修改 缓存 长 度 。 如 果 进 程 提供 的 缓存 不 够 大 ， 则 返回 的 数据 可 能 

会 被 截 掉 。 通 常情 况 下 ， 存 储 选 项 数据 的 mbuf 在 函数 返回 后 被 释放 。 


sogetopttI Zr 


同 sosetopt 一 样 ，sogetopt 函 数 处 理 所 有 插口 级 的 选项 ， 并 将 其 他 的 选项 传 给 与 插 
口 关联 的 协议 。 图 17-11 列 出 了 sogetopt 函 数 的 开始 和 结束 部 分 的 代码 。 


438 TCP/IP 2: 实现 


uipc_socket.c 


856 sogetopt (so, level, optname, mp) 
857 struct socket *so; 


858 int level, optname; 

859 struct mbuf **mp; 

860 ( 

861 struct mbuf *m; 

862 if (level != SOL SOCKET) { 

863 if (so-»so proto && so-»so proto-»pr. ctloutput) { 
864 return ((*so-»so proto-»pr. ctloutput) 

865 (PRCO GETOPT, so, level, optname, mp)); 
866 ) else 

867 return (ENOPROTOOPT); 

868 ) else ( 

869 m = m get (M WAIT, MT. SOOPTS) ; 

870 m-»m len = sizeof(int); 

871 switch (optname) ( 





918 default: 


919 (void) m free (m); 

920 return (ENOPROTOOPT); 
921 } 

922 *mp = m; 

923 return (0); 

924 ) 

925 } 


uipc socket.c 


图 17-11 sogetopt Át: 概况 


856-871 同 sosetopt 一 样 ， 函 数 将 那些 与 插口 级 选项 无 关 的 选项 立即 通过 
PRCO_GETOPT 协 议 请 求 传 递 给 相应 的 协议 级 。 协 议 将 被 请 求 的 选项 保存 在 mp 指向 的 mbuf 中 。 

对 于 插口 级 的 选项 ,分配 一 块 标准 的 mbuf 缓 存 来 保存 选项 值 ， 选 项 值 通 常 是 一 个 整数 ， 
所 以 将 m_len 设 成 整数 大 小 。 相 应 的 选项 值 通过 switch 语 句 复制 到 mbuf 中 。 
918-925 如果 执行 的 是 switch 中 的 default 情 况 下 的 语句 ， 则 释放 mbuf， 并 返回 
ENOPROTOOPT。 否 则 ，switch 语 句 执行 完成 后 ， 将 指向 mbuf 的 指针 赋 给 *mp。 当 函数 返回 
后 ，getsockopt 从 该 mbuf 中 将 数据 复制 到 进程 提供 的 缓存 ， 并 释放 mbuf。 

图 17-12 说 明 对 SO_LINGER 选 项 和 作为 布尔 型 标志 实现 的 选项 的 处 理 。 
872-877 SO LINGER 选 项 请 求 返回 两 个 值 : 一 个 是 标志 值 ， 赋 给 1 _onoff， 另 一 个 是 拖 
延 时 间 ， 赋 给 1_1ingezr。 
878-887 其 余 的 选项 作为 布尔 标志 实现 。 将 so_options 和 optname 执 行 逻 辑 与 操作 ， 如 
果 选 项 被 打开 ， 则 与 操作 的 结果 为 非 0 值 ， 反 之 则 结果 为 0。 注 意 : 标志 被 打开 并 不 表示 返回 
[ES T1. 

sogetopt 的 下 一 部 分 代码 (图 17-13) 将 整 型 值 选项 的 值 复 制 到 mbuf 中 , 
888-906 将 每 一 个 选项 作为 一 个 整数 复制 到 mbuf 中 。 注 意 : 有 些 选项 在 内 核 中 是 作为 一 个 
短 整 数 存 储 的 (如 缓存 高 低 水 位 标记 )， 但 是 作为 整数 返回 。 一 旦 将 so_error 复 制 到 mbuf 中 ， 
即 清 除 so_error， 这 是 唯一 的 一 次 getsockopt 调 用 修改 插口 状态 。 
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uipc socket.c 
872 case SO, LINGER: 
873 m-»m len Æ sizeof(struct linger); 
874 mtod(m, struct linger *)-»1. onoff = 
875 So-»so options & SO LINGER; 
876 mtod(m, struct linger *)-»1 linger - so-»so linger; 
877 break; 
878 case SO USELOOPBACK: 
879 case SO, DONTROUTE: 
880 case SO, DEBUG: 
881 : case SO KEEPALIVE: 
882 case SO REUSEADDR: 
883 case SO, REUSEPORT: 
884 case SO BROADCAST: 
885 case SO OOBINLINE: 
886 *mtod(m, int *) = so-»so options & optname; 
887 break; 
uipc socket.c 
图 17-12 sogetoptikJji; SO_LINGER 选 项 和 布尔 选项 
uipc socket.c 
888 case SO TYPE: 
889 *mtod(m, int *) = so-»so type; 
890 break; 
891 case SO ERROR: 
892 *mtod(m, int *) - so-»so error; 
893 SO-»Sso error = 0; 
894 break; 
895 case SO SNDBUF: 
896 *mtod(m, int *) - so-»so snd.sb hiwat; 
897 break; 
898 case SO RCVBUF: 
899 *mtod(m, int *) - so-»so rcv.sb hiwat; 
901 case SO SNDLOWAT: 
902 *mtod(m, int *) - so-»so snd.sb lowat; 
903 break; 
904 case SO RCVLOWAT: 
905 *mtod(m, int *) = so-»so rcv.sb lowat; 
906 break; ' 
uipc socket.c 





图 17-13 sogetoptr&Zk. 整 型 值 选项 


图 17-14 列 出 了 sogetopt 的 第 三 和 第 四 部 分 代码 ， 它 们 的 作用 分 别 是 处 理 SO_SNDTIMEO 
和 SO _ RCVTIMEO3EJUL, 
907-917 将 发 送 或 接收 缓存 中 的 sb_ timeo 值 赋 给 varz。 基 于 val 中 的 时 钟 滴答 数 ， 在 
mbuf 中 构造 一 个 timeval 结 构 。 


计算 tv_usec 的 代码 有 一 个 差 锚 。 表 达 式 应 该 为 : "(val % hz)* tick", 


440 


907 
908 
909 
910 
911 


912 
913 
914 
915 
916 
917 


TCP/IPz££ X2: 实现 


uipc socket.c 


case SO SNDTIMEO: 
case SO RCVTIMEO: 


( 
int val - (optname -- SO SNDTIMEO ? 
SO-»Sso, snd.sb timeo : so-»so rcv.sb timeo); 


m-»m len = sizeof(struct timeval); 
mtod(m, struct timeval *)-»tv sec = val / hz; 
mtod(m, struct timeval *)-»tv usec = 
(val $& hz) / tick; 
break; 


uipc socket.c 
图 17-14 sogetoptrAZE: 超时 选项 


17.5 ” Ecnt1L 和 :ioct1 系 统 调 用 


因为 历史 原因 而 非 有 意 这 么 做 ， 播 口 API 的 几 个 特点 既 能 通过 ioct1 也 能 通过 fcnt1 来 访 
间 。 关 于 ioct1 命 令 ， 我 们 已 经 讨论 了 很 多 。 我 们 也 几 次 提 到 fcnt1l。 
图 17-15 显 示 了 本 章 描述 的 函数。 


aami CED 
H Atm 


CSmdeRED CED 
MR Cua y 


默认 tioti D 


与 协议 无 关 间 与 协议 有 关 的 
得 到 配置 
C ifconf 7j pr usrreq 
CEcp usrreq) — Crip usrreg) 
Cin-control 5 Craw-usrreq 


iE ioctl 


图 17-15 fcnt1 和 ioct1 国 数 
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ioct1 和 fcnt1 的 原型 分 别 为 : 
int ioctl(int fd, unsigned long result, char *argp); 
int fenti (int AL int omd,... /* int ag */); 


图 17-16 总 结 了 这 两 个 系统 调用 与 插口 有 关 的 特点 。 我 们 在 图 17-16 中 还 列 出 了 一 些 传统 的 
常数 ， 因 为 它们 出 现在 代码 中 。 考 虑 与 Posix 的 兼容 性 ， 可 以 用 0_NONBLOCK 来 代替 


FNONBLOCK， 用 0 _ ASYNC 来 代 赫 FASYNC。 
”通过 打开 或 关闭 so state 中 的 SS_NBIO | ”FNONBLOCK 文 件 状 态 标志 ub | FIONBIOR[A | 
来 使 能 或 禁止 非 阻 塞 功能 


通过 打开 或 关闭 sb flags 中 的 SB ASYNC | FASYNC 文 件 状态 标志 FIORSYNC 命 令 
来 使 能 或 禁止 异步 通知 功能 


iue phis b meet TOTE F SETOWNEF GETOWN SIOCSPGRP 或 SIOCGPGRP 命 令 
UT PITT 返回 
so rcv.sb cc 













SS_RCVRTMRRK 标 志 





图 17-16 fcnt1 和 ioct1 命 令 


17.5.4 fcntl 代 码 
图 17-17 列 出 了 fcnt1l1 函 数 的 部 分 代码 。 





kern_descrip.c 
133 struct fcntl. args ( 
134 int fd; 
135 int cmd; 
136 int arg; 
137 $z 


138 /* ARGSUSED */ 

139 fcntl(p, uap, retval) 
140 struct proc *p; 

141 struct fcntl args *uap; 


142 int *retval; 

143 ( 

144 struct filedesc *fdp - p-»p fd; 

145 struct file *fp; 

146 struct vnode *vp; 

147: In i, tmp, error, flg = F POSIX; 

148 struct flock f1; 

149 u int newmin; 

150 if ((unsigned) uap-»fd >= fdp-»fd nfiles || 
1541 (fp = fdp-»fd ofiles[uap-»fd]) == NULL) 
152 return (EBADF); 


153 switch (uap-»cmd) { 





2953 default: 


254 return (EINVAL); 
255 ) 

256 /* NOTREACHED */ 

257 } 


kern_descrip.c 





图 17-17 fentlz E: Bu 
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133-153 验证 完 指 癌 打开 文件 的 描述 符 的 正确 性 后 ，switch 语 句 处 理 请 求 的 命令 。 
253-257 对 于 不 认识 的 命令 ，fcnt1 返 回 EBINVRAL 。 
图 17-18 仅 显示 fcntl 中 与 插口 有 关 的 代码 。 


kern descrip.c 

168 case F, GETFL: 
169 *retval = OFLAGS(fp-»f flag); 
170 return (0); 
171 case F. SETFL: 
t72 fp->f_flag &- "FCNTLFLAGS; 
173 fp-»f flag |= FFLAGS(uap-»arg) & FCNTLFLAGS; 
174 tmp = fp-»f flag & FNONBLOCK; 
175 error = (*fp-»f ops-»fo ioctl) (fp, FIONBIO, (caddr t) & tmp, p); 
176 if (error) 
IT) return (error); 
178 tmp = fp-»f flag & FASYNC; 
179 error = (*fp-»f ops-»fo ioctl) (fp, FIOASYNC, (caddr t) & tmp, p); 
180 if (lerror) ; 

181 return (0); 

182 fp-»f. flag &- "FNONBLOCK; 

183 tmp z 0; 
184 (void) (*fp-»f ops-»fo ioctl) (fp, FIONBIO, (caddr t) & tmp, p); 
185 return (error); 
186 case F. GETOWN: 
187 if (fp-»f type == DTYPE SOCKET) ( 
188 *retval - ((struct socket *) fp-»f data)-»so pgid; 
189 return (0); 
190 ) 

191 error = (*fp-»f ops-»fo ioctl) 

192 (fp, (int) TIOCGPGRP, (caddr t) retval, p); 

193 *retval - -*retval; 

194 return (error); 

195 case F, SETOWN: 

196 if (fp-»f type == DTYPE SOCKET) ( 

197 ( (struct socket *) fp-»f data)-»so pgid = uap-»arg; 

198 return (0); 

199 ) 
200 if (uap-»arg <= 0) ( 
201 uap-»arg = -uap-»^»arg; 
202 ) else ( 
203 struct proc *p1 = pfind(uap-»arg); 
204 if (pl se 0j 
205 return (ESRCH); 
206 uap-»-arg = pl-»p pgrp-»pg.id; 
207 ) 
208 return ((*fp-»f ops-»fo ioctl) l 
2 , il TI PGRP, (caddr uap-»arg, ; 

09 (fp, (int) OCSPG (caddr t) & uap-»arg, p)) tern descrip. 


图 17-18 fcnt1 系 统 调 用 : 插口 处 理 


168-185 F_GETFL 返 回 与 描述 符 相关 的 当前 文件 状态 标志 ，F_SETFL 设 置 状态 标志 。 通 过 
调用 fo_ioct1 将 FNONBLOCK 和 FASYNC 的 新 设置 传递 给 对 应 的 插口 ， 而 插口 的 新 设置 是 通 
过 图 17-20 中 描述 的 soo_ioct1 国 数 来 传递 的 。 只 有 在 第 二 个 fo_ioct1 调 用 失败 后 ， 才 第 
三 次 调用 fo_ioct1。 该 调用 的 功能 是 清除 FNONBLOCK 标 志 ， 但 是 应 该 改 为 将 这 个 标志 恢复 
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到 原来 的 值 。 

186-194 F_GETOWN 返 回 与 插口 相关 联 的 进程 或 进程 组 的 标识 符 ，so_pgid。 对 于 非 插 口 
描述 符 ， 将 TIOCGPGRP ioct1l 命 令 传 给 对 应 的 fo ioct1 畏 数 。F_ SETOWN 的 功能 是 给 
so_pgid 赋 一 个 新 值 。 


17.5.2 ioctl 代码 


我 们 跳 过 ioct1 系 统 调 用 本 身 而 先 从 soo_ioct1 开 始 讨 论 ， 如 图 17-20 所 示 ， 因 为 
ioct1 代 码 中 的 大 部 分 是 从 图 17-17 所 示 的 代码 中 复制 的 。 我 们 已 经 说 过 ，soo_ioct1 国 数 
将 选 路 命令 发 送 给 ztioct1， 接 口 命令 发 送 给 ifioct1， 任 何其 他 的 命令 发 送 给 底层 协议 的 
pr usrreqH A. 

55-68 有 几 个 命令 是 由 soo_ioct1 直 接 处 理 的 。 如 果 *daata 非 空 ， 则 FIONBIO 打 开 非 阻 

塞 方式 ， 否 则 关闭 非 阻塞 方式 。 正 如 我 们 已 经 了 解 的 ， 这 个 标志 将 影响 accept、connect 

和 close 系 统 调用 ， 也 包括 其 他 的 读 和 写 系 统 调用 。 

69-79 FIOASYNC 使 能 或 禁止 异步 /0 通知 功能 。 如 果 设 置 了 SS_ASYNC， 则 无 论 什么 时 候 

插口 上 有 活动 ， 就 调用 sowakeup， 将 信号 SIGIO 发 送 给 相应 的 进程 或 进程 组 。 

80-88 FIONREAD 返 回 接收 缓存 中 的 可 读 字 市 数 。SIOCSPGRP 设 置 与 插口 相关 的 进程 组 ， 

SIOCGPGRP 则 是 得 到 它 。so_pgid 作 为 我 们 刚 讨论 过 的 SIGIO 信 号 的 目标 进程 或 进程 组 ， 

当 有 带 外 数据 到 达 插 口 时 ， 作 为 SIGURG 信 号 的 目标 进程 或 进程 组 。 

89-92 如 果 插 口 正 处 于 带 外 数据 的 同步 标记 ， 则 SIOCATMARK 返 回 真 ， 否 则 返回 假 。 
ijoctl1l 命 令 ，FIOxxx 和 SIOxxx 常 量 ， 有 一 个 内 部 结构 ， 如 图 17-19 所 示 。 

输入 


输出 
空 


| j| me 
1347 8 位 8 位 


图 17-19 ioct1 命 令 的 内 部 结构 





sys socket.c 
55 soo ioctl(fp, cmd, data, p) 


56 struct file *fp; 
57 int cmd; 

58 caddr t data; 

59 struct proc *p; 


60 ( 

61 struct socket *so = (struct socket *) fp-»f data; 
62 switch (cmd) ( 

63 case FIONBIO: 

64 if (*(int *) data) 

65 SO-»SO State |= SS NBIO; 

66 else 

67 SO-»SO State &- ^SS NBIO; 

68 return (0); 

69 case FIOASYNC: 

70 if (*(int *) data) ( 

d. SO-»SO State |= SS ASYNC; 

A2 so->so_rcv.sb_flags |= SB ASYNC; 
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73 So-»so snd.sb flags |= SB ASYNC; 

74 ) else ( 

75 SO-»SO, State &- ^SS ASYNC; 

76 SO-»SO, rcv.sb flags &- ^SB  ASYNC; 

T4 Sso-»so snd.sb flags &- ^SB ASYNC; 

78 ) i 

79 return (0); 

80 case FIONREAD: 

81 *(int *) data = so-»so rcv.sb cc; 

82 return (0); 

83 case SIOCSPGRP: 

84 SO-»SO pgid = *(int *) data; 

85 return (0); 

86 case SIOCGPGRP: 

87 *(int *) data = so-»so pgid; 

88 return (0); 

89 case SIOCATMARK: 

90 *(int *) dàta = (so-»so state & SS, RCVATMARK) !- 0; 
91 return (0); 

92 ) 

93 /* 

94 * Interface/routing/protocol specific ioctls: 

95 * interface and routing ioctls should have a 

96 * different entry since a socket's unnecessary 

97 Sf 

98 if (IOCGROUP(cmd) == 'i') 

99 return (ifioctl(so, cmd, data, p)); 
100 if (IOCGROUP(cmd) == *'r') 
101 return (rtioctl(cmd, data, p)); 
102 return ((*so-»so proto-»pr usrreq) (so, PRU CONTROL, 
103 (struct mbuf *) cmd, (struct mbuf *) data, (struct mbuf *) 0)); 
104 ) 

sys socket.c 
图 17-20 (£x) 


如 果 将 ioct1 的 第 三 个 参数 作为 输入 ， 则 
设置 input。 如 果 将 该 参数 作为 输出 ， 则 output 
被 置 位 。 如 果 不 用 该 参数 ， 则 void 被 置 位 。 IOCPARM LEN (cmd) | 返回 cmd 中 的 length 





length 是 参数 的 大 小 ( 字 节 )。 相 关 的 命令 在 同一 、| TOCBASECMD (cmd) | length 设 为 0 的 命令 
A i IOCGROUP (cmd) iR [Bl cmd group 

个 group 中 但 每 一 个 命令 在 组 中 都 有 各 目的 

number。 图 17-21 中 的 宏 用 来 解析 ioctli 命 令 图 17-21 ioctl&p4 E 

中 的 元 素 。 


93-104 宏 IOCGROUP 从 命令 中 得 到 8 位 的 group。 接 口 命令 由 ifioct1 处 理 。 选 路 命令 由 
rtioct1l1 处 理 。 通 过 PRU_CONTROL 请 求 将 所 有 其 他 的 命令 传递 给 插口 协议 。 


正如 我 们 在 第 19 章 中 描述 的 ，Net/2 定 义 了 一 个 新 的 访问 路 由 选择 表 接 口 ， 在 该 接 
口中 ， 报 文 是 通过 在 PF _ ROUTE 域 中 产生 的 一 个 插口 传递 给 路 由 选择 子 系统 的 。 用 这 
种 方法 来 代替 这 里 讨论 的 ioct1。 在 不 兼容 的 内 核 中 ，Ltioct1 总 是 返回 ENOTSUPP。 


17.6 getsockname 系 统 调用 


getsockname 系 统 调用 的 原型 是 : 
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int getsockname (int fd, caddr t asa, int * alen); 
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getsockname 得 到 绑 定 在 插口 外 上 的 本 地 地 址 ， 并 将 它 存 入 asa 指 向 的 缓存 中 。 当 在 一 
个 隐 式 的 绑 定 中 内 核 选 择 了 一 个 地 址 ， 或 在 一 个 显 式 的 bind 调 用 中 进程 指定 了 一 个 通配符 地 


址 (2.2.5 节 ) 时 ， 该 函数 就 很 有 用 。getsockname 系 统 调用 如 图 17-22 所 示 。 





682 struct getsockname_args { 


683 int fdes; 
684 caddr t asa; 
685 int *alen; 
686 ); 


687 getsockname(p, uap, retval) 
688 struct proc *p; 
689 struct getsockname args *uap; 
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690 int *retval; 

691 ( 

692 struct file *fp; 

693 struct socket *so; 

694 struct mbuf *m; 

695 int len, error; 

696 if (error = getsock(p-»p fd, uap-»fdes, &fp)) 

697 return (error); 

698 if (error - copyin((caddr t) uap-»alen, (caddr t) & len, sizeof(len))) 
699 return (error); 

700 SO - (struct socket *) fp-»f data; 

701 m - m getclr(M WAIT, MT SONAME); 

702 if (m -- NULL) 

703 return (ENOBUFS); 

704 if (error = (*so-»so proto-»pr usrreq) (so, PRU SOCKADDR, 0, m, 0)) 
705 goto bad; 

706 if (len » m-»m len) 

707 len - m-»m len; 

708 error - copyout(mtod(m, caddr t), (caddr t) uap-»asa, (u int) len); 
709 if (error == 0) 

710 error = copyout((caddr t) & len, (caddr t) uap-»alen, 

714 sizeof(len)); 

712 bad: 

713 m freem(m); 

714 return (error); 

715. } 





图 17-22 getsockname 系 统 调用 
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682-715 getsock 返 回 描述 符 的 file 结 构 。 将 进程 指定 的 缓存 的 长 度 赋 给 len。 这 是 我 们 
第 一 次 看 到 对 m_getclr 的 调用 : 该 函数 分 配 一 个 标准 的 mbuf， 并 调用 bzero 清 零 。 当 协议 


收 到 PRU SOCKADDR 请 求 时 ， 协 议 处 理 层 负 责 将 本 地 地 址 存 和 信 m。 


如 果 地 址 长 度 大 于 进程 提供 的 缓存 的 长 度 ， 则 返回 的 地 址 将 被 截 掉 。*alen 等 于 实际 返 


回 的 字 节 数 。 最 后 ， 释 放 mbuf， 并 返回 。 
17.7 getpeername 系 统 调 用 
getpeername 系 统 调用 的 原型 是 : 


int getpeername(int fd, caddr t asa, int *alen); 
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getpeername AAAA R Ej EA HER 234—^-WfHacceptH'ydtfzx 
t forkflexec/H3J)—^-Hk2sz&BI(D, E ineta ARA 2s). a a eu ux R. 
服务 器 不 能 得 到 accept 返 回 的 远 端 地 址 ， 而 只 能 调用 getpeername。 通 常 ， 要 在 应 用 的 访 
问 地 址 表 查 找 返 回 地 址 ， 如 果 返 回 地 址 不 在 访问 表 中 ， 则 连接 将 被 关闭 。 

某 些 协 议 ( 如 TP4) 利 用 这 个 函数 来 确定 是 否 拒 绝 或 证 实 一 个 进入 的 连接 。 在 TP4 中 ， 
accept 返 回 的 插口 上 的 连接 是 不 完整 的 ， 必 须 经 证 实 之 后 才 算 连接 成 功 。 基 于 
getpeername 返 回 的 地 址 ， 服 务 器 能 够 关闭 连接 或 通过 发 送 或 接收 数据 来 间接 证 实 连接 。 
这 一 特点 与 TCP 无 关 ， 因 为 TCP 必 须 在 三 次 握手 完成 之 后 ，accept 才 能 建立 连接 。 图 17-23 
列 出 了 getpeername 国 数 的 代码 。 


| uipc syscalls.c 
719 struct getpeername args { 


720 int fdes; 
721 caddr t asa; 
722 int *alen; 
TES 2 


724 getpeername(p, uap, retval) 
7253 struct proc Tpi 
726 struct getpeername args *uap; 


4324 int *retval; 

TAS: € 

729 struct file *fp; 

730 struct socket *so; 

T3 struct mbuf *m; 

T2 int len, error; 

733 if (error = getsock(p-»p fd, uap-»fdes, &fp)) 

734 return (error); 

735 SO = (struct socket *) fp-»f. data; 

736 if ((so-»so state & (SS ISCONNECTED | SS ISCONFIRMING)) == 0) 

237 return (ENOTCONN); 

738 if (error = copyin((caddr t) uap-»alen, (caddr t) & len, sizeof(len))) 
739 return (error); 

740 m = m getclr(M WAIT, MT SONAME); 

741 if (m == NULL) 

742 return (ENOBUFS); 

743 if (error -'(*so-»so proto-»pr usrreq) (so, PRU PEERADDR, 0, m, 0)) 
744 goto bad; | 

745 if (len » m-»m len) 

746 len - m-»m len; 

747 if (error = copyout(mtod(m, caddr t), (caddr t) uap-»asa, (u int) len)) 
748 goto bad; 

749 error = copyout((caddr t) & len, (caddr t) uap-»alen, sizeof(len)); 
750 bad: 

751 m freem(m); 

752 return (error); 

J53 1 


uipc syscalls.c 


图 17-23 getpeername £ Zt is Hi 


719-753 图 中 列 出 的 代码 与 getsockname 的 代码 是 一 样 的 。getsock 获 取 揪 口 对 应 的 file 
结构 ， 如 果 播 口 还 没有 同 对 方 建立 连接 或 连接 还 没有 证 实 ( 如 TP4)， 则 返回 ENOTCONN。 如 果 
已 建立 连接 ， 则 从 进程 那里 得 到 缓存 的 大 小 ， 并 分 配 一 块 mbuf 来 存储 地 址 。 发 送 
PRU_PEERRADDR 请 求 给 协议 层 来 获取 远 端 地 址 。 将 地 址 和 地 址 的 长 度 从 内 核 的 mbuf 中 复制 到 
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进程 提供 的 缓存 中 。 释 放 mbuf， 并 返回 。 
17.8 小结 | 


本 章 中 ， 我 们 讨论 了 六 个 修改 插口 功能 的 函数 。 插 口 选 项 由 setsockopt 和 getsockopt 
国 数 处 理 。 其 他 的 选项 (其 中 有 些 不 仅仅 用 于 播 口 ) 由 Ecnt1 和 ioct1 处 理 。 最 后 ， 通 过 
getsockname 和 getpeername 来 获取 连接 信息 。 


习题 
17.1 为 什么 选项 受 标准 mbuf 大 小 (MHLEN, 128 个 字 节 ) 的 限制 ? 
17.2 为 什么 图 17-7 中 的 最 后 一 段 代 码 能 处 理 SO_LINGBER 选 项 ? 


17.3 图 17-9 中 用 来 测试 timeval 结 构 的 代码 有 些 问题 ， 因 为 tv->tv_sec * hz 可 能 会 
游 出 。 请 对 这 段 代码 做 些 修改 来 解决 这 个 问题 。 


第 18 章 Radix 树 路 由 表 


18.1 引言 


由 了 完成 的 路 由 选择 是 一 种 选 路 机 制 ， 它 通过 搜索 路 由 表 来 确定 从 哪个 接口 把 分 组 发 送 
出 去 。 它 与 选 路 策略 (routing policy) 不 一 样 ， 选 路 策略 是 一 组 规则 的 集合 ， 这 些 规则 用 来 确定 
哪些 路 由 可 以 编 入 到 路 由 表 中 。Net/3 内 核实 现 选 路 机 制 ， 而 选 路 守护 进程 ， 典 型 的 如 
routed 或 gated， 实 现 选 路 策略 。 由 于 分 组 转发 是 频繁 发 生 的 (一 个 繁忙 的 系统 每 秒 要 转发 
成 百 上 千 个 分 组 )， 相 对 而 言 ， 选 路 策略 的 变化 要 少 一 些 ， 因 此 路 由 表 的 结构 必须 能 够 适应 这 
种 情况 。 

关于 路 由 选择 的 详细 情况 ， 我 们 分 三 章 进 行 讨论 : 

。 本 章 将 讨论 NeU3 分 组 转发 代码 所 使 用 的 Radix 树 路 由 表 的 结构 。 每 次 发 送 或 转发 分 组 

时 ，IP 都 将 查看 该 表 ( 发 送 时 分 组 需要 查看 该 表 ， 是 因为 IP 必 须 决定 哪个 本 地 接口 将 接 

收 该 分 组 )。 

。 第 19 章 着 重 讨论 内 核 与 Radix 树 之 间 的 接口 函数 以 及 内 核 与 选 路 进程 (通常 指 实现 选 路 策 

略 的 选 路 守护 进程 ) 之 间 交 换 的 选 路 消息 。 进 程 可 以 通过 这 些 消息 来 修改 内 核 的 路 由 表 

(添加 路 由 、 删 除 路 由 等 )， 并 且 当 发 生 了 一 个 异步 事件 ， 可 能 影响 路 由 策略 (如 收 到 重 定 

向 、 接 口 断 开 等 ) 时 ， 内 核 也 会 通过 这 些 消息 来 通知 守护 进程 。 

* 第 20 章 给 出 内 核 与 进程 之 间 交 换 选 路 消息 时 使 用 的 选 路 插口 。 


18.2 路 由 表 结 构 


在 讨论 Net/3 路 由 表 的 内 部 结构 之 前 ， 我 们 需要 了 解 一 下 路 由 表 中 包含 的 信息 类 型 。 图 18-1 
是 图 1-17( 作 者 以 太 网 中 的 四 个 系统 ) 的 下 半 部 分 。 
Internet 


| 
BSD/386 1.1 BSD/386 1.1 Solaris 2.3 !.1.29 SVR4 





以 太 网 ，140.252.13.0 


图 18-1 路 由 表 例 子 中 使 用 的 子 网 


图 18-2 给 出 了 图 18-1 中 bsdi 上 的 路 由 表 。 

为 了 能 够 更 容易 地 看 出 每 个 表 项 中 所 设置 的 标志 ， 我 们 已 经 对 netstat 输 出 的 “Flags” 
列 进行 了 修改 。 

该 表 中 的 路 由 是 按照 下 列 过程 添 加 的 。 其 中 ,第 1、3、5、8、9 步 是 在 系统 的 初始 化 阶段 
执行 /etc/netstart shell 脚 本 时 完成 的 。 
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bsdi $ netstat -rn 
Routing tables 


Internet: 

Destination Gateway Refs Interface 
default 140,252,13.33 : 0 leO 
127 1274.:0.9..1 1o0 
127.020. i iea A a S o ek h 1o0 
128.3233; 140.252.13.33 leO 
140. "cm link#1 leO 
140. . . 8:0:20:3:£6:42 leO 
140. n : 0:0:c0:c2:9b:26 leO 
140. . . 0:0:c0:6£:24d4:40 lo0 
140. 134 140.252.13.66 sl10 
224 link#1 leO 
224.0.0. link#1 leO 


..0 
i 
2 
0 
td 
0 
1 
0 
0 
0 





图 18-2 主机 bsdi 上 的 路 由 表 


1) 默认 路 由 是 由 route 命 令 添 加 的 。 该 路 由 通 往 主 机 sun(140.252.13.33)， 主 机 sun 拥 有 
一 条 到 Internet 的 PPP 链 路 。 

2) 到 网 络 127 的 路 由 表 项 通常 是 由 选 路 守护 进程 (如 gated) 创 建 的 ， 也 可 以 通过 
/etc/netstart 文 件 中 的 route 命 令 将 其 添加 到 路 由 表 中 。 该 表 项 使 得 所 有 发 往 该 网 络 的 
分 组 都 将 被 环 回 驱动 器 (图 $-27) 拒 绝 ， 但 发 往 主机 127.0.0.1 的 分 组 除外 ， 因 为 对 于 该 类 分 组 ， 
在 下 一 步 中 添加 的 一 条 更 特殊 的 路 由 将 屏蔽 本 路 由 表 项 的 作用 。 

3) 到 环 回 接口 (127.0.0.1) 的 表 项 是 由 ifconfig 命 令 配 置 的 。 

4) 到 vangogh.cs.berkeley .edu(128.32.33.5) 的 表 项 是 用 route 命 令 手 工 创建 的 。 
该 路 由 指定 的 路 由 器 与 默认 路 由 所 指定 的 相同 (都 是 140.252.13.33)。 但 是 在 拥有 一 条 替代 默认 
路 由 的 通 往 特定 主机 的 路 由 之 后 ， 我 们 就 能 把 路 由 度量 存储 在 该 路 由 表 项 中 。 这 些 度量 能 够 
由 管理 者 选择 设置 。 每 次 TCP 建 立 一 条 到 达 目 的 主机 的 连接 时 都 使 用 该 度量 ， 并 且 在 连接 关 
闭 时 ， 由 TCP 对 其 进行 更 新 。 我 们 将 在 图 27-3 中 详细 描述 这 些 度量 。 

5) 接口 1e0 的 初始 化 是 由 ifconfig 命 令 完 成 的 。 该 命令 会 在 路 由 表 中 增加 一 条 到 
140.252.13.32 网 络 的 表 项 。 

6) 到 以 太 网 上 另 两 人 台 主 机 sun(140.252.13.33) 和 svr4(140.252.13.34) 的 路 由 表 项 是 由 ARP 
创建 的 ， 见 第 21 章 。 它 们 都 是 临时 路 由 ， 经 过 一 段 时 间 后 ， 如 果 还 未 被 使 用 ， 它 们 就 会 被 自 
动 删除 。 

7) 到 本 机 (140.252.13.35) 的 表 项 是 在 第 一 次 引用 本 机 IP 地 址 时 创建 的 。 该 接口 是 一 个 环 回 ， 
也 就 是 说 ， 任 何 发 往 本 机 IP 地 址 的 数据 报 将 从 内 部 返 送 回来 。4.4BSD 中 包含 了 自动 创建 该 路 
由 的 新 功能 ， 见 21.13 市 。 

8) 到 主机 140.252.13.65 的 表 项 是 在 ifconfig 配 置 SLIP 接 口 时 创建 的 。 

9) 通过 以 太 网 接口 到 达 网 络 244 的 路 由 是 由 route 命 令 添加 的 。 

10) 到 多 播 组 224.0.0.1( 所 有 主机 的 组 ，all-host group) 的 表 项 是 ping 程 序 在 连接 224.0.0.1 即 
“ping 224.0.0.1” 时 创建 的 。 它 也 是 一 条 临时 路 由 ， 如 果 在 一 段 时 间 内 未 被 使 用 ， 就 会 被 目 动 
删除 。 

图 18-2 中 的 “Flags” 列 需要 简单 地 说 明 一 下 。 图 18-25 列 出 了 所 有 可 能 的 标志 。 

U 该 路 由 存在 。 
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明 路 由 的 目的 地 与 本 机 直接 相连 ， 称 为 直接 路 由 。 

H 该 路 由 通 往 一 台 主 机 ， 也 就 是 说 ， 目 的 地 址 是 一 个 完整 的 主机 地 址 。 如 果 没 有 设置 本 
下 志 ， 则 路 由 通 往 一 个 网 络 ， 目 的 地 址 是 一 个 网 络 地 址 : 一 个 网 络 号 ， 或 一 个 网 络 号 
与 子 网 号 的 组 合 。netstat 命 令 并 不 区 分 这 一 点 ， 但 每 一 条 网 络 路 由 中 都 包含 一 个 网 
络 掩 码 ， 而 主机 路 由 中 则 隐 含 了 一 个 全 1 的 掩 码 。 

S 该 路 由 是 静态 的 。 图 18-2 中 route 命 令 创 建 的 三 个 路 由 表 项 是 静态 的 。 

C 该 路 由 可 被 克隆 (clone) 以 产生 新 的 路 由 。 在 本 路 由 表 中 有 两 条 路 由 设置 了 这 个 标志 : 
一 条 是 到 本 地 以 太 网 (140.252.13.32) 的 路 由 ，ARP 通 过 克隆 该 路 由 创建 到 以 太 网 中 其 
他 特定 主机 的 路 由 ， 另 一 条 是 到 多 播 组 224 的 路 由 ， 克 隆 该 路 由 可 以 创建 到 特定 多 播 
组 (如 224.0.0.1) 的 路 由 。 

L 该 路 由 含有 链 路 层 地 址 。 本 标志 应 用 于 单 播 地 址 和 多 播 地 址 。 由 ARP 从 以 太 网 路 由 殉 
隆 而 得 到 的 所 有 主机 路 由 都 设置 了 本 标志 。 

R 环 回 驱动 器 (为 设 有 本 标志 的 路 由 而 设计 的 普通 接口 ) 将 拒绝 所 有 使 用 该 路 由 的 数据 报 。 
添加 带 有 拒绝 标志 的 路 由 的 功能 由 NET/2 提 供 。 它 提供 了 一 种 简单 的 方法 来 防止 

主机 向 外 发 送 以 网 络 127 为 目的 地 的 数据 报 。 参 见习 题 6.6。 


在 4.3BSD Reno 之 前 ， 内 核 将 为 IP 地 址 维护 两 个 不 同 的 路 由 表 : 一 个 针对 主机 路 由 ， 另 一 
个 针对 网 络 路 由 。 对 于 给 定 的 路 由 ， 将 根据 它 的 类 型 添加 到 相应 的 路 由 表 中 。 默 认 路 由 存储 
在 网 络 路 由 表 中 ， 其 目的 地 址 是 0.0.0.0。 查 找 过 程 隐 含 了 这 样 一 种 层次 关系 : 首先 查看 主机 
路 由 表 ; 如 果 找 不 到 ， 则 查找 网 络 路 由 表 ; 如果 仍 找 不 到 ， 则 查找 默认 路 由 。 仅 当 三 次 查找 
都 失败 时 ， 才 认为 目的 地 不 可 达 。[Leffler et al. 1998]8311.5 Tfi xh T — Fiir MER ai PJRJhash 
表 ， 该 hash 表 同时 用 于 Net/1 中 的 主机 路 由 表 和 网 络 路 由 表 。 

4.3BSD Reno [Sklower 1991] 的 变化 主要 与 路 由 表 的 内 部 表示 有 关 。 这 些 变 化 允许 相同 的 
路 由 表 函 数 访 癌 不 同 协议 栈 的 路 由 表 ， 如 OSI 协 议 ， 它 的 地 址 是 变 长 的 ， 这 一 点 与 长 度 固 定 为 
32 位 的 IP 地 址 不 同 。 为 了 提高 查询 速度 ， 路 由 表 的 内 部 结构 也 做 了 变动 。 

Net/3 路 由 表 采 用 Patricia 树 结构 [Sedgewick 1990] 来 表示 主机 地 址 和 网 络 地 址 (Patricia 表 示 
“从 文字 数字 的 编码 中 提取 信息 的 实用 算法 ”)。 待 查找 的 地 址 和 树 中 的 地 址 都 被 看 成 位 序列 。 
这 样 就 可 以 用 相同 的 函数 来 查找 和 维护 不 同类 型 的 树 ， 如 ; 含有 32 位 定 长 IP 地 址 的 树 、 含 有 
48 位 定 长 XNS 地 址 的 树 以 及 一 棵 含有 变 长 OSI 地 址 的 树 。 

使 用 Patricia 树 构造 路 由 表 的 思想 应 归功 于 Van Jacobson 的 [Sklower 1991], 

举 个 例子 就 可 以 很 容易 地 摘 述 出 这 个 算法 。 查 找 路 由 表 的 目标 就 是 找到 一 个 最 能 匹配 给 
定 目 标的 特定 地 址 。 我 们 称 这 个 给 定 的 目标 为 查找 键 (search key)。 所 谓 最 能 匹配 的 地 址 ， 也 
就 是 说 ， 一 个 能 够 匹配 的 主机 地 址 要 优 于 一 个 能 够 匹配 的 网 络 地 址 ;而 一 个 能 够 匹配 的 网 络 
地 址 要 优 于 默认 地 址 。 

每 条 路 由 表 项 都 有 一 个 对 应 的 网 络 掩 码 ， 尽 管 在 主机 路 由 中 没有 存储 掩 码 ， 但 它 隐 含 了 
一 个 全 1 位 的 掩 码 。 我 们 对 查找 键 和 路 由 表 项 的 掩 码 进行 逻辑 与 运算 ， 如 果 得 到 的 值 与 该 路 由 
表 项 的 目的 地 址 相同 ， 则 称 该 路 由 表 项 是 匹配 的 。 对 于 某 个 给 定 的 查找 键 ， 可 能 会 从 路 由 表 
中 找到 多 条 这 样 的 匹配 路 由 ， 所 以 在 单个 表 同 时 包含 网 络 路 由 和 主机 路 由 的 情况 下 ， 我 们 必 
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须 有 效 地 组 织 该 表 ， 使 得 总 能 先 找到 那个 更 能 匹配 的 路 由 。 

让 我 们 来 讨论 图 18-3 给 出 的 例子 。 图 中 给 出 了 两 个 查找 键 ， 分 别 是 127.0.0.1 和 127.0.0.2。 
为 了 更 容易 地 说 明 有 逻辑 与 运算 ， 图 中 同时 给 出 了 它们 的 十 六 进 制 值 。 图 中 给 出 的 两 个 路 由 表 
项 分 别 是 主机 路 由 127.0.0.1( 它 隐 含 了 一 个 全 1 的 掩 码 0xff£fffffff£) 和 网 络 路 由 127.0.0.0( 它 的 
手 码 是 0xff000000)。 


IE C  masmes 
inen | mama | anen | mama 







7£000002 
7£000000 


7£000002 
7£000001 


1 查找 键 7£000001 7£000001 
2 路 由 表 键 7£000001 7£000000 
3 PR HX MERO ffffFffff| EE000000 ffffftff | F£Ó00000 

1 和 3 的 逻辑 与 7£000001 7£000000 7£000002 | 7£000000 


Lpeawe [as [we [zs [ee — 


图 18-3 分 别 以 127.0.0.1 和 127.0.0.2 为 查找 键 的 路 由 表 查 找 示例 


其 中 两 个 路 由 表 项 都 能 够 匹配 查找 键 127.0.0.1， 这 时 路 由 表 的 结构 必须 确保 能 够 先 找到 
更 能 匹配 该 查找 键 的 表 项 (127.0.0.1)。 

图 18-4 给 出 了 对 应 于 图 18-2 的 Net/3 路 由 表 的 内 部 表示 。 执 行 带 一 A 标志 的 netstat 命 令 可 
以 导出 路 由 表 的 树 形 结构 ， 图 18-4 就 是 根据 导出 的 结果 而 建立 的 。 
















“| 他 2 | 
0x00000000 
ff 
o 位 33 on off 位 33 on 
end ) PET 位 6 9n off 位 36 on off 位 35 on 
default 0xff000000 
0.0.0.0 ofi vet ff 
127.0.0.0 127.0.0.1 128.32.33.5 Oxff000000 
Oxff000000 
T trea Je 
OxffffffeO0 140.252.13.65 224.0.0.0 224.0.0.1 
Oxff000000 
ff ff 
O 位 63 on O 位 63 on 


140.252.13.32 140.252.13.33 140.252.13.34 140.252.13.35 
Oxffffffe0 


图 18-4 对 应 于 图 18-2 的 Net/3 路 由 表 


标 有 “end” 的 两 个 阴影 框 是 该 树 结构 中 带 有 特殊 标志 的 叶 结 点 ， 该 标志 代表 树 的 端点 。 
左边 的 那个 拥有 一 个 全 0 键 ， 而 右边 的 拥有 一 个 全 1 键 。 左 边 的 两 个 标 有 “end” 和 “default” 
的 框 垒 在 一 起 ， 这 两 个 框 有 特殊 的 意义 ， 它 们 与 重复 键 有 关 ， 具 体内 容 可 参考 18.9 证 。 

方 角 框 被 称 为 内 部 结 点 (internal node) 或 向 称 为 结 点 (node)， 圆 角 框 被 称 为 叶子 。 每 一 个 
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内 部 结 点 对 应 于 测试 查找 键 的 一 个 位 ， 其 左右 各 有 一 个 分 支 。 每 一 个 叶子 对 应 于 一 个 主机 地 
址 或 者 对 应 于 一 个 网 络 地 址 。 如 果 在 叶子 下 面 有 一 个 十 六 进 制 数 ， 那 么 这 个 叶子 就 对 应 于 一 
个 网 络 地 址 ， 该 十 六 进 制 数 就 是 叶子 的 网 络 掩 码 。 如 果 在 叶子 下 面 没 有 十 六 进 制 的 掩 码 ， 那 
么 这 个 叶子 就 是 一 个 主机 地 址 ， 其 隐 含 的 掩 码 是 0xffffffff。 

有 一 些 内 部 结 点 也 含有 网 络 掩 码 ， 在 后 面 的 学 习 中 ， 我 们 将 了 解 这 些 掩 码 在 回 涛 过 程 中 
是 如 何 使 用 的 。 图 中 的 每 一 个 结 点 还 包含 一 个 指向 其 父 结 点 的 指针 (没有 在 图 中 表示 出 来 )， 它 
能 使 树 结构 的 回 湖 、 删 除 及 非 递 归 操 作 更 加 方便 。 

位 比较 在 插口 地 址 结构 上 完成 ， 因 此 ， 在 图 18-4 中 给 出 的 位 位 置 是 从 插口 地 址 结构 中 的 
起 始 位 置 开 始 算 的 。 图 18-5 给 出 了 sockaddr_in 结 构 中 的 位 位 置 。 


63 


位 : 0 32 
2 4 


1 字 节 1 8 
图 18-5 Internet 插 口 地 址 结构 的 位 位 置 


IP 地 址 的 最 高 位 位 是 位 32， 最 低位 是 位 63。 此 外 还 列 出 了 长 度 是 16， 地址 族 为 
2(AF_INET)， 这 两 个 数值 在 我 们 所 列举 的 例子 中 将 会 遇 到 。 

为 了 解释 这 些 例子 ， 还 需要 给 出 树 中 不 同 IP 地 址 的 位 表示 形式 。 它 们 都 列 在 图 18-6 中 ， 该 
图 还 给 出 了 下 面 例子 中 要 用 到 的 一 些 其 他 IP 地 址 的 位 表示 形式 。 该 图 采用 了 加 粗 的 字体 来 表 
示 图 18-4 中 分 支点 所 对 应 的 位 位 置 。 

现在 我 们 举 一 些 特定 的 例子 来 说 明 路 由 表 的 查找 过 程 。 

1. 与 主机 地 址 匹配 的 例子 

假定 主机 地 址 127.0.0.1 是 查找 键 一 一 待 查找 的 目的 地 址 。 位 32 为 0， 因 此 ， 沿 树 顶点 向 左 
分 支 继续 查找 ， 到 下 一 个 结 反 。 位 33 为 1， 因 此 ， 从 该 结 点 右 分 支 继续 查找 ， 到 下 一 个 结 点 。 
位 63 为 1， 因 此 ， 从 右 分 支 继续 查找 ， 到 下 一 个 结 点 。 而 下 一 个 结 点 是 个 叶子 ， 此 时 查找 键 
(127.0.0.1) 与 叶子 中 的 地 址 (127.0.0.1) 相 比较 。 它 们 完全 匹配 ， 这 样 查找 函数 就 可 以 返回 该 路 
由 表 项 。 






ME 32 位 耳 地 址 (位 32~63) 点 分 十 进 制 表示 


















位 | 3333 3333 4444 4444 4455 5555 5555 6666 

位 置 | 2345 6789 0123 4567 $8901 2345 6789 0123 
10.1.2.3 
112.0.0.1 


127.0.0.0 
127.0.0.1 
127.0.0.3 
128.32.33.5 
128.32.33.6 
140.252.13.32 
140.252.13.33 
140.252.13.34 
140.252.13.35 
140.252.13.65 
224.0.0.0 
224.0.0.1 


图 18-6 图 18-2 和 图 18-4 中 IP 地 址 的 位 表示 形式 
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2. 与 主机 地 址 匹配 的 例子 

再 假定 查找 键 是 地 址 140.252.13.35。 位 32 为 1， 因 此 ， 沿 树 顶 点 同 右 分 支 继 续 查 找 。 位 33 
为 0， 位 36 为 1， 位 57 为 0， 位 62 为 1， 位 63 为 1， 因 此 ， 查 找 在 底部 标 有 140.252.13.35 的 叶子 处 
终止 。 查 找 键 与 路 由 表 键 完全 匹配 。 

3. 与 网 络 地 址 匹配 的 例子 

假定 查找 键 是 127.0.0.2。 位 32 为 0， 位 33 为 1， 位 63 为 0， 因 此 ， 查 找 在 标 有 127.0.0.0 的 叶 
子 处 终止 。 查 找 键 和 路 由 表 键 并 没有 完全 匹配 ， 因 此 ， 需 要 进一步 看 它 是 不 是 一 个 能 够 匹配 
的 网 络 地 址 。 对 查找 键 和 网 络 掩 码 (0xff000000) 进 行 逻 辑 与 运算 ， 得 到 的 结果 与 该 路 由 表 
键 相同 ， 即 认为 该 路 由 表 项 能 够 匹配 。 

4. 与 默认 地 址 匹配 的 例子 

假定 查找 键 是 10.1.2.3。 位 32 为 0， 位 33 为 0， 因 此 ， 查 找 在 标 有 “end” 和 “default” 并 带 
有 重复 键 的 叶子 处 终止 。 在 这 两 个 叶子 中 重复 的 路 由 表 键 是 0.0.0.0。 查 找 键 与 路 由 表 键 值 没 
有 完全 匹配 ， 因 此 ， 需 要 进一步 看 它 是 不 是 一 个 能 够 匹配 的 网 络 地 址 。 这 种 匹配 运算 要 对 每 
个 含 网 络 掩 码 的 重复 键 都 试 一 遍 。 第 一 个 键 ( 标 有 end) 没 有 网 络 掩 码 ， 可 以 跳 过 不 查 。 第 二 个 
键 (默认 表 项 ) 有 一 个 0x00000000 的 掩 码 。 查 找 键 和 这 个 掩 码 进 行 逻 辑 与 运算 ， 所 得 结果 和 
路 由 表 键 (0) 相 等 ， 即 认为 该 路 由 表 项 能 够 匹配 。 这 样 默认 路 由 就 被 用 做 匹配 路 由 。 

5. 带 回 溯 过 程 的 与 网 络 地 址 匹配 的 例子 

假定 查找 键 是 127.0.0.3。 位 32 为 0， 位 33 为 1， 位 63 为 1， 因 此 ， 查 找 在 标 有 127.0.0.1 的 叶 
子 处 终止 。 查 找 键 和 路 由 表 键 没有 完全 匹配 。 由 于 这 个 叶子 没有 网 络 掩 码 ， 无 法 进行 网 络 掩 
码 匹 配 的 尝试 。 此 时 就 要 进行 回 济 。 

回 浏 算法 在 树 中 同上 移动 ， 每 次 移动 一 层 。 如 果 过 到 的 内 部 结 点 含有 掩 码 ， 则 对 查找 关 
键 字 和 该 掩 码 进行 逻辑 与 运算 ， 得 到 一 个 键 值 ， 然 后 以 这 个 键 值 作为 新 的 查找 键 ， 在 以 含 该 
掩 码 的 内 部 结 点 为 开始 的 子 树 中 进行 另 一 次 查找 ， 看 是 否 能 找到 匹配 的 结 点 。 如 果 找 不 到 ， 
则 回溯 过 程 继续 沿 树 上 移 ， 直 到 到 达 树 的 顶点 。 

在 这 个 例子 中 ， 查 找 上 移 一 层 到 达 位 63 对 应 的 结 点 ， 该 结 点 含有 一 个 掩 码 。 于 是 对 查找 
键 和 掩 码 (0x£f£000000) 进 行 逻 辑 与 运算 ， 得 到 一 个 新 的 查找 键 ， 其 值 为 127.0.0.0。 然 后 从 该 
结 点 开始 查找 127.0.0.0。 位 63 为 0， 因 此 ， 沿 左 分 支 到 达标 有 127.0.0.0 的 叶子 上 。 用 新 的 查找 
键 与 路 由 表 键 相 比 较 ， 它 们 是 相等 的 ， 因 此 认为 这 个 叶子 是 匹配 的 。 

6. 多 层 回 诸 的 例子 

假定 查找 键 是 112.0.0.1。 位 32 为 0， 位 33 为 1， 位 63 为 1， 因 此 ， 查 找 在 标 有 127.0.0.1 的 叶 
子 处 终止 。 该 键 与 查找 键 不 相等 ， 并 且 路 由 表 项 中 没有 网 络 掩 码 ， 因 此 需要 进行 回调 。 

查找 过 程 同 上 移动 一 层 ， 到 达 位 63 对 应 的 结 点 ， 该 结 点 含有 一 个 掩 码 。 对 查找 关键 字 和 
该 掩 码 (0xff000000) 进 行 逻 辑 与 运算 ， 然 后 再 从 这 个 结 点 开始 进一步 查找 。 在 新 的 查找 键 
中 位 63 为 0， 因 此 ， 沿 左 分 支 到 达标 有 127.0.0.0 的 叶子 。 比 较 之 后 发 现 逻 辑 与 运算 得 到 的 查找 
键 (112.0.0.0) 和 路 由 表 键 并 不 相等 。 

因此 继续 向 上 回 斋 一 层 ， 从 位 63 对 应 的 结 点 上 移 到 位 33 对 应 的 结 点 。 但 这 个 结 点 没有 掩 码 ， 
再 继续 同上 回 滴 。 到 达 的 下 一 层 是 树 的 顶点 (位 32)， 它 有 一 个 掩 码 。 对 查找 键 (112.0.0.1) 和 该 掩 
码 (0x00000000) 进 行 逻辑 与 运算 后 ， 从 该 点 开始 一 个 新 的 查找 。 在 新 的 查找 键 中 ， 位 32 为 0， 
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位 33 也 为 0， 因 此 ， 查 找 在 标 有 “end” 和 “default” 的 叶子 处 结束 。 通 过 与 重复 键 列表 中 的 每 
一 项 进行 比较 ， 发 现 默 认 键 与 新 的 查找 键 相 匹配 ， 因 此 采用 默认 路 由 。 

从 这 个 例子 可 以 知道 ， 如 果 在 路 由 表 中 存在 默认 路 由 ， 那 么 当 回 浏 最 终 到 达 树 的 项 挟 
时 ， 它 的 掩 码 为 全 0 位 ， 这 使 得 查找 向 树 中 最 左边 叶子 的 方向 进行 搜索 ， 最 终 与 默认 路 由 相 
匹配 。 

7. 带 回 溯 和 克隆 过 程 并 与 主机 地 址 相 匹 配 的 例子 

假定 查找 键 是 224.0.0.5。 位 32 为 1， 位 33 为 1， 位 35 为 0， 位 63 为 1， 因 此 ， 查 找 在 标 有 
224.0.0.1 的 叶子 处 结束 。 路 由 表 的 键 值 和 查找 关键 字 并 不 相等 ， 并 且 该 路 由 表 项 不 包含 网 络 
掩 码 ， 因 此 要 进行 回 涛 。 

回 漳 向 上 移动 一 层 ， 到 达 位 63 对 应 的 结 皮 。 这 个 结 反 含有 掩 码 0x£f£000000， 因 此 ， 对 
查找 键 和 该 掩 码 进 行 逻 辑 与 运算 ， 产 生 一 个 新 的 查找 键 ， 即 224.0.0.0。 再 从 这 个 结 反 开 始 一 
次 新 的 查找 。 在 新 的 查找 键 中 位 63 为 0， 于 是 治 左 分 支 到 达标 有 224.0.0.0 的 叶子 。 这 个 路 由 表 
键 和 远 辑 与 运算 得 到 的 查找 键 相 匹配 ， 因 此 这 个 路 由 表 项 是 匹配 的 。 

该 路 由 上 设置 了 “克隆 ”标志 ( 见 图 18-2)， 因 此 ， 以 224.0.0.5 为 地 址 创建 一 个 新 的 叶子 。 


新 的 路 由 表 项 是 : 
Destination Gateway Flags Refs Use Interface 
224.0.0.5 link#1 UHL 0 0 leO 


图 18-7 从 位 35 对 应 的 结 点 开始 ， 给 出 了 图 18-4 中 路 
由 表 树 右边 部 分 的 新 排列 。 注 意 ， 无 论 何 时 间 树 中 添加 
新 的 叶子 ， 都 需要 两 个 结 点 : 一 个 作为 叶子 ， 另 一 个 作 
ZJ TRAE SE TAL D BJ VAI ES ER o 

新 创建 的 表 项 就 被 返回 给 查找 224.0.0.5 的 调用 者 。 

8. 大 图 

图 18-8 是 一 张 比 较 大 的 图 ， 它 描述 了 涉及 的 所 有 数 
据 结 构 。 该 图 的 底部 来 自 图 3-32。 

现在 我 们 解释 图 中 的 几 个 要 点 ， 本 章 还 将 在 后 面 给 
出 详细 的 表述 。 224.0.0.0 224.0.0.1 

ert tables 是 指 癌 radix node head 结构 的 oxrtoooooo 

指针 数组 。 每 一 个 地 址 族 都 有 一 个 数组 单元 与 之 。 图 18-7 插入 224.0.0.5 路 由 表 项 后 

XH. rt tables[AF INET] 指向 Internet 路 由 图 18-4 的 改动 

表 树 的 顶点 。 

“radix_node_head 结 构 包 含 三 个 radix_node 结 构 。 这 三 个 结构 是 在 初始 化 路 由 树 

时 创建 的 ， 中 间 的 是 树 的 顶点 。 它 对 应 于 图 18-4 中 最 上 端 标 有 “位 32” 的 结 点 框 。 三 个 

radix_node 结 构 中 的 第 一 个 是 图 18-4 中 最 左边 的 叶子 (与 默认 路 由 共享 的 重复 )， 第 三 

个 结构 是 最 右边 的 叶子 。 在 一 个 空 的 路 由 表 中 ， 就 只 包含 这 三 个 radix_node 结 构 ， 我 

们 将 会 看 到 xn_inithead 国 数 是 如 何 构建 它们 的 。 

。 全 局 变量 mask rnhead 也 指向 一 个 radix node head 结构 。 它 是 包含 所 有 掩 码 的 一 

棵 独立 树 的 首部 结构 。 观 察 图 18-4 中 给 出 的 八 个 掩 码 可 知 ， 有 一 个 掩 码 重复 了 四 次 ， 有 

两 个 掩 码 重复 了 一 次 。 通 过 把 掩 码 放 在 一 棵 单独 的 树 中 ， 可 以 做 到 对 每 一 个 掩 码 只 需要 

维护 它 的 一 个 备份 即 可 。 
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。 路 由 表 树 是 用 rtentry 结 构 创建 的 ， 在 图 18-8 中 ， 有 两 个 rtentry 结 构 。 每 一 个 
rtentry 结 构 包 含 两 个 radix_node 结 构 ， 因 为 每 次 向 树 中 插入 一 个 新 的 路 由 时 ， 痢 
需要 两 个 结 点 : 一 个 是 内 部 结 点 ， 对 应 于 某 一 个 要 测试 的 位 ， 男 一 个 是 叶子 ， 对 应 于 一 
个 主机 路 由 或 一 个 网 络 路 由 。 在 每 一 个 rtentry 结 构 中 ,给 出 了 内 部 结 点 对 应 的 要 闹 
试 的 那 一 位 以 及 叶子 中 所 包含 的 地 址 。 


rt tables[]: radix node head() rtentry() à inpcb() 
SNAM radix node() 
el (127.0.0.1) 
JOE radix node() 
DEC DE radix node() (bit 33) 
| (left end) je 
EIFE radix node() 
ep (bit 32) 


右 
radix node() 
(right end) ped 


0 
1 
AF INET -2 
3 





mask rnhead: radix node head() 
rtentry() 
radix node() 
(140.252.13.32) 
radix node() £npob() 
(bit 33) 





ifnet: le softc[0]: sl. softc[0]: 


E wis 


ifnet addrs: le softc() 


ifnet() 






[2 
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Fh 
"| 
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sSockaddr dl(í() 


sockaddr dl() sSockaddr dlí() 8 要 
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图 18-8 路 由 表 中 涉及 的 数据 结构 


rtentzy 结 构 中 的 其 余部 分 是 该 路 由 的 一 些 其 他 重要 信息 。 虽 然 我 们 只 给 出 了 该 结构 中 
一 个 指向 ifnet 结 构 的 指针 ， 但 在 这 个 结构 中 还 包含 了 指向 ifaddr 结 构 的 指针 、 该 路 由 的 标 
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志 、 指 向 另 一 个 rtentry 结 构 的 指针 (如 果 该 路 由 是 一 个 非 直 接 路 由 ) 和 该 路 由 的 度量 ,等 等 。 
。 存 在 于 每 一 个 UDP 和 和 TCP 插口 (图 22-1) 的 协议 控制 块 (PCB， 见 第 22 章 ) 中 包含 一 个 指 问 
rtentry 结 构 的 route 结 构 。 每 次 发 送 一 个 IP 数 据 报 时 ，UDP 和 TCP 输 出 函数 都 传递 一 
个 指向 PCB 中 route 结 构 的 指针 ， 作 为 调用 ip_output 的 第 三 个 参数 。 使 用 相同 路 由 
的 PCB 都 指向 相同 的 路 由 表 项 。 


18.3 选 路 插口 


在 4.3BSD Reno 的 路 由 表 做 了 变动 后 ， 路 由 子 系统 和 进程 间 的 交互 过 程 也 要 做 出 变动 ， 这 
就 引出 了 选 路 插口 (routing socket) 的 概念 。 在 4.3BSD Reno 之 前 ， 是 由 进程 (如 route 命 令 ) 通 
过 发 出 定 长 的 ioct1 来 修改 路 由 表 的 。4.3BSD Reno 采 用 新 的 PF_ROUTE 域 把 它 改变 成 一 种 更 
为 通用 的 消息 传递 模式 。 进 程 在 PF_ROUTE 域 中 创建 一 个 原始 插口 (raw socket), PRET i A 
核发 送 选 路 消息 ， 以 及 从 内 核 接 收 选 路 消息 (如 重 定 同 或 来 自 于 内 核 的 其 他 异步 通知 )。 

图 18-9 给 出 了 12 种 不 同类 型 的 选 路 消息 。 消 息 类 型 是 位 于 rt_msghdr 结 构 ( 图 19-16) 中 
的 rtm_type 字 7 段 。 进 程 只 能 发 送 其 中 的 5 种 消息 ( 写 入 到 选 路 插口 中 ),， 但 可 以 接收 全 部 12 种 
消息 。 

我 们 将 在 第 19 章 给 出 这 些 选 路 消息 的 详细 讨论 。 


RTM ADD 添加 路 由 rt msghdr 
RTM CHANGE 改变 网 关 、 度 量 或 标志 rt msghdr 
RTM DELADDR 从 接口 中 删除 地 址 ifa msghdr 
RTM DELETE 删除 路 由 rt msghdr 
RTM GET 报告 度量 及 其 他 路 由 信息 rt msghdr 


RTM IFINFO 接口 打开 或 关闭 等 rt msghdr 
RTM LOCK 锁定 指明 的 度量 rt msghdr 
RTM LOSING 内 核 怀 疑 某 路 由 无 效 rt msghdr 
RTM MISS 查找 这 个 地 址 失败 rt msghdr 
RTM NEWADDR 接口 中 添加 了 地 址 ifa msghdr 
RTM REDIRECT 内 核 得 知 要 使 用 不 同 的 路 由 rt msghdr 
RTM RESOLVE 请 求 将 目的 地 址 解析 成 链 路 层 地 址 rt msghdr 


18-9 通过 选 路 插口 交换 的 消息 类 型 





18.4 代码 介绍 


f 述 

路 由 选择 中 使 用 的 各 种 结构 和 国 数 是 通过 net/radix.h radix 结 点 定义 

五 个 C 文 件 与 三 个 头 文件 来 定义 的 。 图 18-10 列 Inet/raw_cb.h 选 路 控制 块 定义 
出 了 这 些 文件 net/route.h 选 路 结构 


net/radix.c radix 结 点 (Patricia 树 ) 函 数 


LI ALa — . = ~ je 
通常 ， 前 缀 zn_ 表 示 radix 结 氮 国 数 ， 这 些 aetyraw cb.c 选 路 控制 块 函数 
国 数 可 以 对 Patricia 树 进行 查找 和 操作 ， 前 net/raw usrreq.c 选 路 控制 块 函数 





级 raw_ 表 示 路 由 控制 块 函数 ，rout_、rt_ 和 met/route.c. 选 路 函数 
rt 这 三 个 前 组 表示 常用 的 选 路 函数 。 pom inicia 


图 18-10 本 章 中 讨论 的 文件 
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尽管 有 的 文件 和 函数 以 zaw 为 前 组 ， 但 在 所 有 的 选 路 章节 中 我 们 仍 使 用 术语 选 路 
控制 块 (Touting control blobk) 而 不 是 原始 控制 块 。 这 是 为 了 防止 与 第 32 章 中 讨论 的 原 
始 IP 控 制 块 及 其 函数 相 混 消 。 虽 然 原始 榨 制 块 及 相关 函数 不 仅仅 用 于 Net/3 中 的 选 路 
插口 (使 用 这 些 结构 和 前 数 的 原始 OSI 协 议 之 一 )， 但 是 本 书 中 我 们 只 用 作 PF ROUTE 
域 中 的 选 路 插口 。 
图 18-11 给 出 了 一 些 基 本 的 选 路 国 数 ， 并 表示 了 它们 之 间 的 相互 关系 。 其 中 带 阴 影 的 椭圆 


是 在 本 章 和 下 面 两 章 中 要 涉及 的 内 容 。 在 图 中 ， 我 们 还 给 出 了 每 种 类 型 的 选 路 消息 ( 共 12 种 ) 的 
JE. 


E 外 al rp， gat ed, rout t e, iit 1 
| routed, 和 rwhod 程序 1 
socket (PF_ROUTE, SOCK RAW, protocol) 3 
gem 插口 接收 缓存 
系统 调用 系统 初始 化 
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接口 状态 改变 ”接口 启动 和 断 
开 时 由 各 ioctl "— — 
调用 ， 以 添加 CCCcp_timers》 Ce 
或 出 除 路 由 。 给 定 TCP 连 接 ”ICMP 改 变 路 册 由 TCP/IP 协 议 
上 相继 重 传 中 调用 以 查找 到 
的 第 四 个 目的 地 的 路 由 
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图 18-11 各 选 路 函数 之 间 的 关系 
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rtalloc 畏 数 是 由 Internet 协 议 调 用 的 ， 用 于 查找 到 达 指 定 目 的 地 的 路 由 。 在 
ip rtaddr, ip forward, ip output 和 ip setmoptions 国 数 中 都 已 出 现 过 
rtalloc， 在 后 面 介 绍 的 in_ pcbconnect 和 tcp mss 国 数 中 也 将 会 遇 到 它 。 

图 18-11 还 给 出 了 在 选 路 域 中 创建 插口 的 五 个 典型 程序 : 

。arp 处 理 ARP 高 速 缓存 ， 该 ARP 高 速 缓存 存储 在 NeV3 的 了 P 路 由 表 中 ( 见 第 21 章 )， 

“gated 和 routed 是 选 路 守护 进程 ， 它 们 与 其 他 路 由 右 进 行 通信 。 当 选 路 环境 发 生变 化 

时 ( 指 路 由 如 及 链 路 断 开 或 连通 )， 对 内 核 的 路 由 表 进 行 操作 ， 

“route 通 第 是 由 启动 脚本 或 系统 管理 员 执行 的 一 个 程序 ， 用 于 添加 或 删除 路 由 ; 

“rwhod 在 局 动 时 会 调用 一 个 选 路 sysct1l 来 测定 连接 的 接口 。 

当然 ， 任 何 进 程 (具有 超级 用 户 的 权限 ) 都 能 打开 一 个 选 路 插口 向 选 路 子 系统 发 送 或 从 中 接 
收 消 息 ， 在 图 18-11 中 ， 我 们 只 给 出 了 一 些 和 常用 的 系统 程序 。 


18.4.1 全 局 变量 


18-12 列 出 了 在 三 个 有 关 路 由 选择 的 章节 中 介绍 的 全 局 变量 。 


rt tables 
mask rnhead 


rn mkfreelist 


max keylen 
rn zeros 
rn ones 


maskedKey 


rtstat 
rttrash 


rawcb 


raw recvspace 
raw sendspace 
route cb 
route dst 
route src 


route proto 


18.4.2 统计 量 


struct radix node head *[] 
struct radix node head * 


struct radix mask * 


struct rtstat 
int 

struct rawcb 

u long 

u long 

struct route cb 
struct sockaddr 
struct sockaddr 


struct sockproto 





路 由 表 表 头 指针 的 数组 

指向 掩 码 表 表 头 的 指针 

可 用 radix_mask 结 构 的 链表 表 头 

以 字 市 为 单位 的 路 由 表 键 值 的 最 大 长 度 
长 为 nax_keylen、 值 为 全 0 位 的 数组 
长 为 nax_keylen、 值 为 全 1 位 的 数组 
长 为 nax_keylen、 掩 码 过 的 查找 键 数组 


路 由 选择 统计 (图 18-13) 
# 未 释放 的 非 表 中 路 由 的 数目 


选 路 控制 块 双向 链表 表 头 

选 路 插口 接收 缓冲 区 的 默认 大 小 ，8192 字 节 

选 路 插口 发 送 缓 冲 区 的 默认 大 小 ，8192 字 节 

# 选 路 插口 监听 器 的 数目 ， 每 个 协议 的 数目 及 总 的 数目 
保存 选 路 消息 中 目的 地 址 的 临时 变量 

保存 选 路 消息 中 源 地 址 的 临时 变量 

保存 选 路 消息 中 协议 的 临时 变量 


图 18-12 在 三 个 有 关 选 路 的 章 市 中 介绍 的 全 局 变量 


图 18-13 列 举 了 一 些 路 由 选择 统计 量 ， 它 们 是 在 全 局 结构 rtstat 中 维护 的 。 
在 代码 的 处 理 中 ， 我 们 可 以 发 现 计数 器 是 怎样 增加 的 。 这 些 计数 器 在 SNMP 中 并 未 使 用 。 


图 18-14 给 出 Jnetstat 


rtstat 结 构 。 


-rs 命令 输出 的 一 些 统计 数据 的 样 例 ， 该 命令 用 于 显示 
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rts badredirect # 无 效 重 定向 调用 的 数目 
rts dynamic # 由 重 定向 创建 的 路 由 数目 


rts newgateway # 由 重 定向 修改 的 路 由 数目 
rts_unreach # 查 找 失败 的 次 数 
rts wildcard # 由 通配符 匹配 的 查找 次 数 ( 从 未 使 用 ) 


图 18-13 在 rtstat 结 构 中 维护 的 路 由 选择 统计 数据 


netstat-rs 的 输出 rtstat 成 员 


1029 bad routing redirects rts badredirect 





0 dynamically created routes rts dynamic 

0 new gateways due to redirects rts newgateway 
0 destinations found unreachable rts unreach 
0 


uses of a wildcard route rts-wildcard 





图 18-14 路 由 选择 统计 数据 样 例 


18.4.3 SNMP 变 量 


图 18-15 给 出 了 名 为 jpRouteTable 的 IP 路 由 表 以 及 相应 的 内 核 变量 。 
IP 路 由 表 ，index = <ipRouteDest> 
fü — xh 


ipRouteDest rt key IP 目 的 地 址 。 值 为 0.0.0.0 时 ， 代 表 默 认 路 由 

ipRouteIfIndex | rt ifp, if index 接口 号 : ifIndex 

ipRouteMetric1 基本 的 路 由 度量 。 其 含义 取决 于 选 路 协议 的 值 (ijpRoute- 
Proto)。 值 为 -1， 表 示 没 有 使 用 

ipRouteMetric2 可 选 的 路 由 度量 

ipRouteMetric3 可 选 的 路 由 度量 

ipRouteMetric4 可 选 的 路 由 度量 

ipRouteNextHop rt gateway TF—BERR E 25 HJIPHE HE 

ipRouteType ( 见 正 文 ) 路 由 类 型 : 1= 其 他 ，2= 无 效 路 由 ，3= 直 接 的 ，4= 间 接 
的 

ipRouteProto (WM IE X) 路 由 协议 : 1= 其 他 ，4=ICMP 重 定向 ，8=RIP 132OSPF, 
14= BGP 等 

ipRouteAge (未 实现 ) 从 路 由 最 后 一 次 被 修改 或 被 确定 为 正确 时 起 的 秒 数 

ipRouteMask rt mask ftfüipRouteDestLb&emi, 5 HBJXSLIPREAESETIOE. 
辑 与 运算 的 掩 码 

ipRouteMetric5 可 选 的 路 由 度量 

ipRouteInfo 本 选 路 协议 特定 的 MIB 定 义 的 引用 





图 18-15 IP 路 由 表 : ipRouteTable 


如 果 在 rt_flags 中 将 标志 RTF_GATEWAY 置 位 ， 则 该 路 由 就 是 远程 的 ，ipRouteType 
等 于 4， 否则 该 路 由 就 是 直达 的 ，ipRouteType 值 为 3。 对 于 ipRouteProto， 如 果 将 标志 
RTF DYNAMIC 或 RTF MODIEFIED 置 位 ， 则 该 路 由 就 是 由 ICMP 来 创建 或 修改 的 ， 值 为 4， 否 则 
为 其 他 情况 ， 其 值 为 1 。 最 后 ， 如 果 rt_mask 指 针 为 空 ， 则 返回 的 掩 码 就 是 全 1( 即 主机 路 由 )。 
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18.5 ”Radix 结 点 数据 结构 


在 图 18-8 中 可 以 发 现 每 一 个 路 由 表 的 表 头 都 是 一 个 radix_node_head 结 构 ， 而 选 路 树 中 所 
有 的 结 点 (包括 内 部 结 点 和 叶子 ) 都 是 radix_node 结 构 。radix_node_head 结 构 如 图 18-16 所 示 。 


- radix.h 

91 struct radix node head { 

92 struct radix node *rnh treetop; 

93 int rnh, addrsize; /* (not currently used) */ 

94 int rnh, pktsize; /* (not currently used) */ 

95 struct radix node *(*rnh addaddadr) /* add based on sockaddr */ 

96 (void *v, void *mask, 

97 struct radix node head * head, struct radix node nodes[]); 

98 struct radix node *(*rnh addpkt) /* add based on packet hdr */ 

99 (void *v, void *mask, 

100 struct radix node head * head, struct radix node nodes([]); 
101 struct radix node *(*rnh deladdr) /* remove based on sockaddr */ 
102 (void *v, void *mask, struct radix node head * head); 
103 struct radix node *(*rnh delpkt) /* remove based on packet hdr */ 
104 (void *v, void *mask, struct radix node head * head); 
105 struct radix node *(*rnh matchaddr) /* locate based on sockaddr */ 
106 (void *v, struct radix node head * head); 
107 struct radix node *(*rnh matchpkt)  /* locate based on packet hdr */ 
108 (void *v, struct radix node head * head); 
109 int (*rnh, walktree) /* traverse tree */ 
110 (struct radix node head * head, int (*f) (), void *w); 
111 struct radix node rnh nodes [3]; /* top and end nodes */ 
i424. Jj; 

radix.h 


图 18-16 radix node head 结 构 : 每 棵 选 路 树 的 顶点 


92 rnh treetop 指 向 路 由 树 顶 端的 radix_node 结 构 。 可 以 看 到 radix node_head 结 
构 的 最 后 一 项 分 配 了 三 个 radix_node 结 构 ， 其 中 中 间 的 那个 被 初始 化 成 树 的 顶点 (图 18-8)。 
93-94 rnh addrsize 和 rnh pktsize 目 前 未 被 使 用 。 
rnh addrsize 是 为 了 能 够 方便 地 将 路 由 表 代 码 导 入 系统 中 ， 因 为 系统 的 村 口 
地 址 结构 中 没有 标识 其 长 度 的 字 节 。rnh pktsize 是 为 了 能 够 利用 radix 结 点 机 制 
直接 检查 分 组 头 结构 中 的 地 址 ， 而 不 需要 把 该 地 址 找 贝 到 某 个 插口 地 址 结构 中 去 。 


95-110 从 rnh addaddr 到 rnh walktree 是 七 个 函数 指针 ， 它 们 所 指向 的 函数 将 被 调用 
以 完成 对 树 的 操作 。 如 图 18-17 所 示 ，rn_inithead 仅 初始 化 了 其 中 的 四 个 指针 ， 剩 下 的 三 


个 指针 在 Net/3 中 未 被 使 用 。 被 rn inithead 初 始 化 为 





111-112 118-1845 iH T AH CBE rh A SEI rnh addaddr rn addroute 
radix _ node 结构 。 在 图 18-8 中 我 们 发 现 ， 在 rnh addpkt NULL 
radix node head 中 分 配 了 三 个 这 样 的 rnh deladdr rn delete 

m rnh delpkt NULL 

. A JM * 

radix_node 结 构 ， 而 在 每 一 个 rtentry 征 rnh matchaddr rn match 
构 中 分 配 了 两 个 radix_node 结 构 。 rnh matchpkt NULL 
41-45 前 五 个 成 员 是 内 部 结 点 和 叶子 都 有 rnh walktree rn walktree 
的 成 员 。 后 面 是 一 个 union: An As ET 图 18-17 在 radix node head 结 构 中 的 


子 ， 那 么 它 定 义 了 三 个 成 员 ， 如 果 是 内 部 结 七 个 函数 指针 
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点 ， 那 么 它 定 义 了 另外 不 同 的 三 个 成 员 。 由 于 在 Net/3 代 码 中 经 常 使 用 union 中 的 这 些 成 员 ， 
因此 ， 用 一 组 #define 语 句 定义 它们 的 简写 形式 。 

41-42 rn mklist 是 该 结 点 掩 码 链表 的 表 头 。 我 们 将 在 18.9 市 中 描述 该 字段 。rn_p 指 问 该 
结 点 的 父 结 点 。 

43 如果 rn_b 值 大 于 或 者 等 于 零 ， 那 么 该 结 点 为 内 部 结 点 ;否则 就 是 叶子 。 对 于 内 部 结 点 来 
说 ，rn_b 就 是 要 测试 的 位 位 置 : 例如 ， 在 图 18-4 中 ， 树 的 顶 结 点 的 rn_b 值 为 32。 对 于 叶子 
来 说 ，rn_b 是 负 的 ， 它 的 值 等 于 一 1 减 去 网 络 掩 码 索 引 (index of the network mask)。 该 索引 是 
指 掩 码 中 出 现 的 第 一 个 0 的 位 位 置 。 图 18-19 给 出 了 图 18-4 中 掩 码 的 索引 。 





radix.h 
40 struct radix node ( 
41 struct radix mask *rn mklist; /* list of masks contained in subtree */ 
42 struct radix node *rn p; /* parent pointer */ 
43 short rn. b; /* bit offset; -1-index(netmask) */ 
44 char rn, bmask; /* node: mask for bit test */ 
45 u char rn flags; /* Figure 18.20 */ 
46 union { 
47 struct ( /* leaf only data: rn b « 0 */ 
48 caddr t rn, Key; /* object of search */ 
49 caddr t rn Mask; /* netmask, if present */ 
50 struct radix node *rn, Dupedkey; 
51 ) rn leaf; 
52 struct ( /* node only data: rn b >= O0 */ 
53 int rn. Off; /* where to start compare */ 
54 struct radix node *rn L; /* left pointer */ 
55 struct radix node *rn R; /* right pointer */ 
56 ) rn node; 
57 h rn úy 
58 ); 
59 4&define rn dupedkey rn u.rn leaf.rn Dupedkey 
60 4&define rn key rn u.rn leaf.rn Key 
61 #define rn mask rn u.rn leaf.rn Mask 
62 &define rn off rn, u.rn  node.rn, Off 
63 d$define rn 1 rn u.rn node.rn L 
64 $&define rn r rn u.rn node.rn R 

radix.h 


图 18-18 radix _ node 结构 : 路 由 树 的 结 点 

aspe PEE 

3333 3333 4444 14444 4455 5555 5555 6666 

2345 6789 0123 4567 8901 2345 6789 0123 
00000000: 0000 0000 0000 0000 0000 0000 0000 0000 0 -i 
££000000: 1111 11211 0000 0000 0000 0000 0000 0000 40 —41 
ffffffeO0: TALLE AELK £11 TIKI TITE li 3234200 0000 59 —60 

图 18-19 掩 码 索 引 的 例子 
我 们 可 以 发 现 ， 其 中 全 0 掩 码 的 索引 是 特殊 处 理 的 : 它 的 索引 是 0， 而 不 是 32。 

44 内 部 结 点 的 xn_bmask 是 个 单字 节 的 掩 码 ， 用 于 检测 相应 的 位 是 0 还 是 1。 在 叶子 中 它 的 
值 为 0。 很 快 我 们 将 会 看 到 如 何 运 用 成 员 rn_bmask 和 成 员 rn_off。 
45 图 18-20 给 出 了 成 员 rn flags 的 三 个 值 。 
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该 结 点 是 活 的 (alive)( 针 对 rtfree) 
该 叶子 含有 正常 路 由 (目前 未 被 使 用 ) 
该 叶子 是 树 的 根 叶子 














RNF ACTIVE 
RNF NORMAL 
RNF ROOT 






图 18-20 rn flags 的 值 


RNF_ROOT 标 志 只 有 在 radix_node_head 结 构 的 三 个 radix 结 点 ( 树 的 顶 结 点 、 左 端 结 点 和 碳 
端 结 点 ) 中 才能 设置 。 这 三 个 结 点 不 能 从 路 由 树 中 删除 。 
48-49 对 于 叶子 而 言 ，rn_key 指 向 插口 地 址 结构 ，rn_mask 指 向 保存 掩 码 的 插口 地 址 
结构 。 如 果 rn_mask 为 空 ， 则 其 掩 码 为 隐 含 的 全 1 值 ( 即 ， 该 路 由 指向 某 个 主机 而 不 是 某 个 
网 络 )。 

图 18-21 列 举 了 一 个 与 图 18-4 中 的 叶子 140.252.13.32 相 对 应 的 radix node 结 构 的 例子 。 


指向 位 63 对 应 的 radix_node{} 

















radix node() 









”28 . Sockaddr in{} 


0 COSE MET UA GE x Ce PU M SEEN 
RNF. ACTIVE 140.252. 13. 32 


rn dupedkey 


ja) 9 Tsejtejoa|go] — — 9 — — — 


255.255.255.224 


[8|0|  . re|]ft|ff]e] .— .— 0 — . |] 





radix maskí) 


图 18-21 与 图 18-4 中 的 叶子 140.252.13.32 相 对 应 的 radix node 结构 


该 例子 中 还 给 出 了 图 18-22 中 描述 的 radix_mask 结 构 。 我 们 把 它 的 宽度 略微 缩小 了 一 些 ， 
以 区 别 于 radix_node 结 构 ;， 这 两 种 结构 在 后 面 的 很 多 图 例 中 都 会 过 到 。 有 关 radix_mask 
结构 的 作用 将 在 18.9 市 中 阐述 。 

值 为 -60 的 rn_b 相 对 应 的 索引 为 59。rn_key 指 向 一 个 sockaddr_in 结 构 ， 它 的 长 度 值 
为 16， 地 址 族 值 为 2(AF_INET)。 由 rn_mask 和 rm_mask 指 向 的 掩 码 结构 所 含 的 长 度 值 为 8， 
地 址 族 值 为 0( 该 族 为 AF_UNSPEC， 但 我 们 从 未 使 用 它 )。 

50-51 当 有 多 个 叶子 的 键 值 相 同时 ， 使 用 rn_dupedkey 指 针 。 具 体内 容 将 在 18.9 市 中 阐述 。 
52-58 有 关 rn_off 的 内 容 将 在 18.8 节 中 阐述 。rn_l 和 rn_r 是 该 内 部 结 点 的 左 、 右 指针 。 

K] 18-2225 iH Tradix mask 结构 的 定义 。 ` 
76-83 该 结构 中 包含 一 个 指向 其 掩 码 的 指针 : rm mask, Scbs bAE— ^ DR (E TERES fifi E13 
址 结构 的 指针 。 每 一 个 radix_node 结 构 对 应 一 个 radix_mask 结 构 的 链表 ， 这 就 允许 每 个 
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结 点 包含 多 个 掩 码 : 成 员 rn_mk1ist 指 向 链表 的 第 一 个 结 点 ， 然 后 每 个 结构 的 成 员 
rm_mk1ist 指 向 链表 的 下 一 个 结 点 。 该 结构 的 定义 同时 声明 了 全 局 变量 rn_mkfreelist,， 
它 是 可 用 的 radix_mask 结 构 链表 的 表 头 。 


radix.h 
76 extern struct radix mask { 
77 short rm b; /* bit offset; -l-index(netmask) */ 
78 char rm unused; /* cf. rn bmask */ 
79 u char rm flags; /* ef. rn flags */ 
80 struct radix mask *rm mklist; /* more masks to try */ 
81 caddr t rm mask; /* the mask */ 
82 int rm refs; /* * of references to this struct */ 
83 ] *rn mkfreelist; 
radix.h 


图 18-22 radix mask 结 构 


18.6 选 路 结构 


访问 内 核 路 由 信息 的 关键 之 处 是 : 

1) rtalloc 尔 数 ， 用 于 查找 通 往 目 的 地 的 路 由 ， 

2) Youte 结 构 ， 它 的 值 由 z*tal1loc 国 数 填写 

3) route 结 构 所 指 癌 的 rtentry 结 构 。 

图 18-8 给 出 了 UDP 和 TCP( 参 见 第 22 章 ) 中 使 用 的 协议 控制 块 (PCB)， 其 中 包含 一 个 route 
结构 ， 见 图 18-23。 


route.h 
46 struct route { 
47 struct rtentry *ro.rt; /* pointer to struct with information */ 
48 struct sockaddr ro dst; /* destination of this route */ 
49 ) 
route.h 


[18-23 route 结 构 


ro_dst 被 定义 成 一 个 一 般 的 插口 地 址 结构 ， 但 对 Internet 协 议 而 言 ， 它 就 是 一 个 
sockaddr_in 结 构 。 注 意 ， 对 这 种 结构 类 型 的 绝 大 多 数 引 用 都 是 指针 ， 而 ro_dst 是 该 结构 
的 一 个 实例 而 非 指针 。 

这 里 我 们 有 必要 回顾 一 下 图 8-24。 从 该 图 可 以 得 知 ， 每 次 发 送 卫 数据 报时 ， 这 些 路 由 是 如 
何 使 用 的 。 

。 如 果 调 用 者 传递 了 一 个 route 结 构 的 指针 ， 那 么 就 使 用 该 结构 。 否 则 ， 就 要 用 一 个 局 部 
route 结 构 ， 其 值 设置 为 0( 设 置 ro_rt 为 空 指针 )。UDP 和 TCP 把 指向 它们 的 PCB 中 
route 结 构 的 指针 传递 给 ip_output。 

* 如果 route 结 构 指 同一 个 rtentry 结 构 (ro_rt 指 针 为 非 空 )， 同 时 所 引用 的 接口 仍然 有 
效 ; 而 且 如 果 route 结 构 中 的 目的 地 址 与 IP 数 据 报 中 的 目的 地 址 相等 ， 那 么 该 路 由 就 会 
被 使 用 。 否 则 ， 目 的 主机 的 IP 地 址 将 会 设置 在 插口 地 址 结构 so_dst 中 ， 并 且 调 用 
rtalloc 来 查找 一 条 通 同 该 目的 主机 的 路 由 。 在 TCP 链 接 中 ， 数 据 报 的 目的 地 址 始终 是 
路 由 的 目的 地 址 ， 不 会 发 生变 化 ， 但 是 UDP 应 用 可 以 通过 sendto 每 次 都 把 数据 报 发 送 
到 不 同 的 目的 地 。 

。 如 果 ztalloc 返 回 的 zxo_rt 是 个 空 指针 ， 则 表明 找 不 到 路 由 ， 并 且 ip_output 返 回 一 
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ME. 

。 如果 在 rtentry 结 构 中 设 有 RTF_GATEWAY 标 志 ， 那 么 该 路 由 为 非 直 接 路 由 (参见 图 18-2 
中 的 G 标 志 )。 接 口 输出 函数 的 目的 地 址 (dst) 就 变 成 网 关 的 IP 地 址 ， 即 rt_gateway 成 
员 ， 而 不 是 卫 数 据 报 的 目的 地 址 。 

图 18-24 给 出 了 rtentry 结 构 的 定义 。 


route.h 

83 struct rtentry 4 

84 struct radix node rt, nodes[2]; /* a leaf and an internal node */ 

85 struct sockaddr *rt, gateway; /* value associated with rn key */ 

86 short rt flags; /* Figure 18.25 */ 

87 short rt refcnt; /* #held references */ 

88 u long rt use; /* raw #packets sent */ 

89 struct ifnet *rt ifp; /* interface to use */ 

90 struct ifaddr *rt ifa; /* interface address to use */ 

91 struct sockaddr *rt genmask; /* for generation of cloned routes */ 

92 caddr t rt llinfo: /* pointer to link level info cache */ 

93 struct rt metrics rt rmx; /* metrics: Figure 18.26 */ 

94 struct rtentry *rt gwroute; /* implied entry for gatewayed routes */ 

35 }3 

96 sdefine rt key (r) ((struct sockaddr *)((r)-»rt, nodes-»rn key)) 

97 $define rt mask(r) ( (struct sockaddr *)((r)-»rt nodes-»rn mask)) d 
route. 


图 18-24 rtentry 结 构 


83-84 在 该 结构 中 包含 有 两 个 radix_node 结 构 。 正 如 我 们 在 图 18-7 的 例子 中 所 提 到 的 ， 
每 次 向 路 由 树 添 加 一 个 新 叶子 的 同时 也 要 添加 一 个 新 的 内 部 结 点 。rt_nodes[0] 为 叶子 ， 
rt_nodes[1] 为 内 部 结 点 。 在 图 18-24 最 后 的 两 个 #define 语 句 提供 了 访问 该 叶 结 点 的 键 和 
掩 码 的 人 简写 形式 。 

86 图 18-25 给 出 了 存储 在 rt_f1ags 中 的 各 种 常量 以 及 在 图 18-2 的 “Flags” 列 中 由 
netstat 和 输出 的 相应 字符 。 


RTF BLACKHOLE 无 差错 的 丢弃 分 组 ( 环 回 驱 动 器 :图 5-27) 
RTF CLONING 使 用 中 产生 新 的 路 由 (由 ARP 使 用 ) 
RTF DONE 内 核 的 证 实 ， 表 示 消 息 处 理 完毕 

RTF DYNAMIC (由 重 定向 ) 动 态 创建 

RTF GATEWAY 目的 主机 是 一 个 网 关 ( 非 直接 路 由 ) 

RTF HOST 主机 路 由 (否则 ， 为 网 络 路 由 ) 

RTF LLINFO 当 rt 11info 指 针 无 效 时 ， 由 ARP 设 置 
RTF MASK 子 网 掩 码 存 在 (未 使 用 ) 

RTF MODIFIED (由 重 定向 ) 动 态 修改 

RTF PROTO1 协议 专用 的 路 由 标志 

RTF PROTO2 协议 专用 的 路 由 标志 (ARP 使 用 ) 

RTF REJECT 3E TERT E SE 2H GP [n] D JJ) $8 : 5-27) 
RTF STATIC 人 工 添加 的 路 由 (route 程 序 ) 

RTF UP 可 用 路 由 

RTF XRESOLVE 由 外 部 守护 进程 解析 名 字 ( 用 于 X.25) 


C 
d 
D 
G 
H 
L 
m 
M 
1l 
2 
R 
S 
U 
X 





图 18-25 rt flags 的 值 
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netstat 不 输出 RTF BLACKHOLE 标 志 。 两 个 标志 为 小 写字 符 的 常量 ，RTF_DONE 和 和 
RTF MASK, 在 路 由 消息 中 使 用 ， 但 通常 并 不 存储 在 路 由 表 项 中 ，。 
85 如果 设置 了 RTF_GATEWAY 标 志 ， 那 么 rt_gateway 所 含 的 插口 地 址 结构 的 指针 就 指 问 
网 关 的 地 址 ( 即 网 关 的 IP 地 址 )。 同 样 ，rt_gwroute 指 向 该 网 关 的 rtentry。 后 一 个 指针 在 
ether output( 图 4-15) 中 会 用 到 。 
87 rt_refcnt 是 一 个 计数 器 ,保存 正在 使 用 该 结构 的 引用 数目 。 在 19.3 市 的 最 后 部 分 将 具 
体 描 述 该 计数 器 。 在 图 18-2 中 ， 该 计数 右 显示 在 “Refs ” 列 中 。 
88 当 分 配 该 结构 存储 空间 时 ，zt_use 被 初始 化 为 0。 在 图 8-24 中 ， 可 发 现 每 次 利用 该 路 由 
输出 一 份 IP 数 据 报时 ， 其 值 会 随 之 递增 。 该 计数 器 的 值 显示 在 图 18-2 的 “Use” 列 中 。 
89-90 rt _ifp 和 rt _ifa 分 别 指 接口 结构 和 接口 地 址 结构 。 在 图 6-5 中 曾 指 出 一 个 给 定 的 接 
口 可 以 有 多 个 地 址 ， 因 此 ，rt_ifa 是 必需 的 。 
92 rt_11info 指 针 允 许 链 路 层 协议 在 路 由 表 项 中 存储 该 协议 专用 的 结构 指针 。 该 指针 通常 
与 RTF_LLINFO 标 志 一 起 使 用 。 图 21-1 描 述 了 ARP 如 何 使 用 该 指针 。 


- route.h 
54 struct rt metrics ( 
55 u long rmx locks; /* bitmask for values kernel leaves alone */ 
56 u long rmx mtu; /* MTU for this path */ 
57 u long rmx hopcount; /* max hops expected */ 
58 u long rmx expire; /* lifetime for route, e.g. redirect */ 
59 u long rmx recvpipe; /* inbound delay-bandwith product */ 
60 u long rmx sendpipe; /* outbound delay-bandwith product */ 
61 u long rmx ssthresh; /* outbound gateway buffer limit */ 
62 u löng žm rtt; /* estimated round trip time */ 
63 u long rmx rttvar; /* estimated RTT variance */ 
64 u long rmx pksent; /* $packets sent using this route */ 
65 ) 

route.h 


图 18-26 rt metrics 结 构 


93 图 18-26 给 出 J 了 rt metrics 结 构 ，rtentry 结 构 含 有 该 结构 。 图 27-3 显 示 了 TCP 使 用 了 
该 结构 的 六 个 成 员 。 
54-65 rmx_locks 是 一 个 位 掩 码 ， 由 它 告诉 内 核 后 面 的 八 个 度量 中 的 哪些 禁止 修改 。 该 位 
掩 码 的 值 在 图 20-13 中 给 

ARP( 参 见 第 21 章 ) 把 rmx _expire 用 作 每 一 个 ARP 路 由 项 的 定时 器 。 与 rmx_expire 的 
注释 不 同 的 是 ，rm_expire 不 是 用 作 重 定向 的 。 

图 18-28 概 括 了 我 们 上 面 所 曾 述 的 各 种 结构 和 这 些 结构 之 则 的 关系 ， 以 及 所 引用 的 各 种 插 
口 地 址 结构 。 图 中 给 出 的 rtentry 是 图 18-2 中 到 128.32.33.5 的 路 由 。 包 含 在 rtentry 中 的 另 
一 个 radix_node 对 应 于 图 18-4 中 位 于 该 结 点 正 上 方 的 36 测 试 位 的 内 部 结 点 。 第 一 个 ifadar 
所 指 的 两 个 sockaddr_d1 结 构 如 图 3-38 所 示 。 另 外 ， 从 图 6-5 中 也 可 注意 到 ifnet 结 构 包含 
在 1e_softc 结 构 中 ， 第 二 个 ifaddr 结 构 包 含 在 in_ifaddr 结 构 中 。 


18.7 初始 化 : route init 和 rtable initi 


路 由 表 的 初始 化 过 程 并 非 是 一 目 了 然 的 ， 我 们 需要 回顾 一 下 第 7 章 中 的 domain 结 构 。 在 
描述 这 些 函 数 调用 之 前 ， 图 18-27 给 出 了 各 协议 族 中 与 aomain 结 构 相 关 的 字段 。 
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dom family mm PF ROUTE 


dom init route init 

dom rtattach rn inithead 
dom rtoffset 32 0 16 

dom maxrtkey 16 0 16 





图 18-27 _ domain 结构 中 与 路 由 选择 有 关 的 成 员 


PF_ROUTE 域 是 唯一 具有 初始 化 函数 的 域 。 同 样 ， 只 有 那些 需要 路 由 表 的 域 才 有 
dom rtattach 函 数 ， 并 且 该 函数 总 是 rn _inithead。 选 路 域 和 Unix 域 并 不 需要 路 由 表 。 


rtentry{} E inpcb() 


rn p 128.32 .33...5 


mob 2 pp Ti ——9 — 


rn bmask 0 140.252. 13.33 


16|2| 0 jecjfcjogg3. 0 | 


rn mask 都 是 sockaddr in() 
ineto) 

TE lev 
x: SISLIP ifret) 


radix node() 
E 
P 
上 一 
AT 
Q 
u 


Sockaddr in() 
route() 





- 
9 
3J | m-bmask |oxos 
; Tr 
$| [mtt ha 3 
: [ ifindex |a 
rum 
[ ifunit | 
rt flags UGHS 
[ rtorefent — |2 
[ rtuse jie 
以 太 网 地 址 
ifadar 0) e 
op 1 Tis[3 [6 [o [1T o [es]o[[os]eea o 
m[o[ v Te[o]oo]eseses o To [o [o oT9]. 0 
: 者 是 sockadar 210 
= 
: 
è 
: 
E ifaddr() 140.252. 13 . 33 
me[2[ o pdp — 9 — 7 


25.3.6 
Ge[2[ 9 Tecos] 0 | 


2552525522 
用 于 140.252.13.33 CARECE C — 9 | 


的 radix_node{) | | 
UM aockadár int 


图 18-28 选 路 结构 小 结 
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dom_rtoffset 成 员 是 以 位 为 单位 的 选 路 过 程 中 被 检测 的 第 一 位 的 偏 移 量 ( 从 域 的 插口 地 
址 结构 的 起 始 处 开始 计算 )。dom-: maxrztkey 给 出 了 该 结构 的 字 节 长 度 。 在 本 章 的 前 一 部 分 的 
内 容 中 ， 我 们 已 经 知道 ，sockaddr_in 结 构 中 的 IP 地 址 是 从 位 32 开 始 的 。dom_maxrtkey 
成 员 是 协议 的 插口 地 址 结构 的 字 节 长 度 : sockaddr_in 的 字 布 长 度 为 16。 

图 18-29 列 出 了 路 由 表 初 始 化 所 包含 的 步骤 。 


mailinl() /* kernel initialization */ 


( 


ifinit(); 
omaininit(); 


) 


omaininit() /* Figure 7.15 */ 
( 


ADDDOMAIN (unix); 
ADDDOMAIN(route); 
ADDDOMAIN (inet); 
ADDDOMAIN (osi); 


for ( dp - alldomains ) ( 

(*dp-»dom init)(); 

for ( pr = all protocols for this domain ) 
(*pr-»pr init)(); 






) 


raw, init() /* pr init() function for SOCK RAW/PF, ROUTE protocol */ 
( i M 
初始 化 选 路 协议 控制 块 的 首部 


route init() /* dom init() function for PF ROUTE domain */ 
( 
rn init(); 
—rtable init(); 


) 


rn. inití) 
( 
for ( dp = alldomains ) 
if (dp-»dom maxrtkey > max keylen) 
max keylen = dp-»dom maxrtkey; 
分 配 并 初始 化 rn zeros, rn ones, masked key; 
rn inithead(&mask rnhead);  /* allocate and init tree for masks */ 





) 
rtable init() 
( 
for ( dp = all domains ) 
(*dp-»dom rtattach)(&rt tables[dp-»dom family]); 
) 


rn inithead() /* dom attach() function for all protocol families */ 


( 
分 配 并 初始 化 一 个 radix node head 结构 ; 
) 


图 18-29 初始 化 路 由 表 时 包含 的 步骤 
在 系统 初始 化 时 ， 内 核 的 main 函 数 将 调用 一 次 domaininit 函 数 。ADDDOMAIN 宏 用 于 
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创建 一 个 domain 结构 的 链表 ， 并 调用 每 个 域 的 dom_init 国 数 (如 果 定 义 了 该 国 数 )。 正 如 图 
18-27BpzkR, route init 是 唯一 的 一 个 aom_intit 国 数 ， 其 代码 如 图 18-30 所 示 。 


route.c 
49 void 
50 route init() 
SL f 
52 rn init(); /* initialize all zeros, all ones, mask table */ 
53 rtable init((void **) rt tables); 
54 ) 

route.c 


图 18-30 rout init 图 数 
图 18-32 中 的 函数 rn_init 只 被 调用 一 次 。 
图 18-31 中 的 函数 rtable init 也 只 被 调用 一 次 。 它 接着 调用 所 有 域 的 dom 
rtattach 国 数 ， 这 些 困 数 为 各 目 所 属 的 域 初始 化 一 张 路 由 表 。 


route.c 
39 void 
40 rtable init(table) 
41 void **table; 
42 ( 
43 struct domain *dom; 
44 for (dom - domains; dom; dom - dom-»dom next) 
45 if (dom-»dom rtattach) 
46 dom-»dom rtattach(&table[dom-»dom family], 
47 dom-»dom rtoffset); 
48 ) 

route.c 


图 18-31 rtable initr&Z&: 调用 每 一 个 域 的 dom rtattachr& 7 


从 图 18-27 中 可 知 ， rn _ inithead 是 唯一 一 个 dom rtattachiR8Zt, X Frn. 
inithead 函 数 将 在 下 一 市 中 介绍 。 


18.8 初始 化 : rn init 和 rn inithead 函 数 


图 18-32 中 的 函数 rn init 只 被 route init 调 用 一 次 ， 用 于 初始 化 radix 函 数 使 用 的 
一 些 全 局 变量 。 | 

1. 确定 max keylen 
750-761 检查 所 有 daomain 结 构 ， 并 将 全 局 变量 max_keylen 设 置 为 最 大 的 
dom_maxrtkey 值 。 在 图 18-27 中 最 大 值 是 32( 对 应 于 AF_ISO), 但 是 ,在 一 个 常用 的 不 含 
OSI 和 XNS 协 议 的 系统 中 ，max _ key 为 16， 即 sockaddr _ in 结构 的 大 小 。 

2. 分 配 并 初始 化 rn zeros, rn ones 和 maskedKey 
762-769 人 先 分 配 一 个 大 小 为 nax_keylen 的 三 倍 的 缓存 ， 并 在 全 局 变量 rn _ zeros 中 存储 
该 缓存 的 指针 。R_Malloc 是 一 个 调用 内 核 的 malloc 函 数 的 宏 ， 它 指定 了 M_RTABLE 和 
M_DONTWAIT 的 类 型 。 我 们 还 会 遇 到 Bcmp、Bcopy、Bzero 和 Free 这 些 宏 ， 它 们 对 参数 进 
行 适当 分 类 ， 并 调用 名 称 相 似 的 内 核 函 数 。 

该 缓存 被 分 解 成 三 个 部 分 ， 每 一 部 分 的 初始 化 形式 如 图 18-33 所 示 。 

rn zeros 是 一 个 全 0 位 的 数组 ，rn _ones 是 一 个 全 1 位 的 数组 ，maskedKey 数 组 用 于 存 
放 被 掩 码 过 的 查找 键 的 临时 副本 。 
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radix.c 
750 void 
751 rn, initi) 
252 t 
753 char *cp, *cplim; 
754 struct domain *dom; 
755 for (dom - domains; dom; dom - dom-»dom next) 
756 if (dom-»dom maxrtkey » max keylen) 
757 max keylen = dom-»dom maxrtkey; 
758 if (max keylen == 0) ( 
759 printf("rn init: radix functions require max keylen be set\n"); 
760 return; 
761 ) 
762 R Malloc(rn zeros, char *, 3 * max keylen); 
763 if (rn zeros -- NULL) 
764 panic("rn,. init"); 
765 Bzero(rn zeros, 3 * max keylen); 
766 rn ones = cp = rn zeros + max keylen; 
767 maskedKey = cplim = rn ones + max keylen; 
768 while (cp « cplim) 
769 xCD++ = -1; 
7710 if (rn inithead((void **) &mask rnhead, 0) == 0) 
771 pamnie(*'zu.inmit 2*); 
7372 ) 
radix.c 


图 18-32 rn init% 


max keylen^ ^E | max keylen 个 字 节 | max keylen 个 字 节 | 


000 T Ü Domnii 85 114159» Uu $e 000 
rn zeros rn ones maskedKey 


图 18-33 rn zeros, rn ones 和 maskedKey 数 组 


3. 初始 化 掩 码 树 
770-772 调用 rn_inithead， 初 始 化 地 址 掩 码 路 由 树 的 首部 ， 并 使 图 18-8 中 全 局 变量 
mask_rnhead 指 向 该 adix_node_head 结 构 。 

从 图 18-27 可 知 ， 对 于 所 有 需要 路 由 表 的 协议 ，rn_inithead 也 是 它们 的 dom_attach 
函数 。 图 18-34 给 出 的 不 是 该 函数 的 源 代码 ， 而 是 该 函数 为 I1nternet 协 议 创 建 的 
radix node head 结 构 。 

这 三 个 radix_node 结 构 组 成 了 一 棵 树 : 中 间 的 那个 结构 是 树 的 项 点 (由 rnh_treetop 
指向 它 )， 第 一 个 结构 是 树 的 最 左边 的 叶子 ， 最 后 一 个 结构 是 树 的 最 右边 的 叶子 。 这 三 个 结 挟 
的 父 指针 (rn_p) 都 指向 中 间 的 那个 结 后 。 

rnh nodes[1].rn_b 的 值 32 是 待 测试 的 位 位 置 。 它 来 自 Internet 的 domain 结 构 中 的 
dom_rtoffset 成 员 ( 图 18-27)。 它 的 字 节 偏 移 量 及 字 节 掩 码 被 预先 计算 出 来 ， 这 样 就 不 需要 
在 处 理 过 程 中 完成 移 位 和 掩 码 。 其 中 ， 字 节 偏 移 量 从 插口 地 址 结构 起 始 处 开始 计算 ， 它 存放 
在 radix_node 结 构 的 rn_off 成 员 中 (在 这 个 例子 中 它 的 值 为 4)， 字 市 掩 码 存放 在 
rn_bmask 成 员 中 (在 这 个 例子 中 为 0x80)。 无 论 何 时 往 树 中 添加 radix_node 结 构 ， 都 要 计 
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算 这 些 值 ， 以 便 在 转发 过 程 中 加 快 比较 的 速度 。 其 他 的 例子 有 : 在 图 18-4 中 检测 位 33 的 两 个 
结 扣 的 偏 移 量 和 字 市 掩 码 分 别 为 4 和 0x40， 检测 位 63 的 两 个 结 点 的 偏 移 量 和 字 节 掩 码 分 别 为 7 
和 0x01。 

两 个 叶子 中 的 rn_b 成 员 的 值 ~33 是 由 一 1 减 去 该 叶子 的 索引 而 得 到 的 。 


rt tables[]: radix node head() 
aptae 
1| | rnh_addrsize |0 
AF_INET=2|  —  - rnh pktsize 0 
gore rh addaddr rn addroute 


NULL 

rn delroute 
| "mh delpkt | wrr 

rn match 


rnh matchpkt |NULL 


rnh walktree |rn walktree 


rn mklist NULL 

rn, p 

nb 933 

xn buask 0 radix node() 


rnh, nodes[0] 


[m-flags  |acrrveinoor — [peur 


rn, mask NULL 
rn, dupedkey NULL 
rn mklist NUR o 
mp | 
32 radix node() 
rn, bmask 0x80 rnh, nodes [1] 
ACTIVE | ROOT 内 部 结 点 
rn off 4 也 是 树 的 顶点 
LACEDXEURC INEO 700 
-33 
rn haak 0 radix node() 
es rnh, nodes [2] 
ACTIVE | ROOT 最 在 边 的 时 子 


n ones 
NULL 


rn_dupedkey NULL 


图 18-34 rn inithead 为 Internet 协 议 创建 的 radix node head 结构 


最 左边 结 点 的 键 是 全 0(rn _zeros)， 最 右边 结 点 的 键 是 全 1(rn ones), 
这 三 个 结 斥 都 设置 了 RNF_ROOT 标 志 ( 我 们 省 略 了 前 级 RNF_)。 这 说 明 它 们 都 是 构成 树 的 
原始 结 点 之 一 。 它 们 也 是 唯一 具有 该 标志 的 结 点 。 


有 一 个 细节 我 们 没有 提 到 ， 就 是 网 络 文件 系统 (INFS) 也 使 用 路 由 表 函 数 。 本 地 主 
机 的 每 一 个 装配 点 (mount point) 都 分 配 一 个 radix node _ head 结构 ， 并 且 具 有 一 
个 指向 这 些 结构 的 指针 数组 (利用 协议 族 检 索 )， 与 Tt _tabBles 数 组 相似 。 每 次 输出 
装配 点 时 ， 针 对 该 装配 点 ， 会 把 能 装配 该 文件 系统 的 主机 的 协议 地 址 添加 到 适当 的 
树 中 。 


$183x Radix Á & — 471 


18.9 重复 键 和 捧 码 列表 


在 介绍 查找 路 由 表 项 的 源 代 码 之 前 ， 必 须 先 理解 zadix_node 结 构 中 的 两 个 字段 : 一 个 
是 rn_dupedkey， 它 构成 了 附加 的 含 重复 键 的 radix_node 结 构 链 表 ; 男 一 个 是 
rn mklist， 它 是 含 网 络 掩 码 的 radix _mask 结 构 链 表 的 开始 。 

先 看 一 下 图 18-4 中 树 的 最 左边 标 有 “end” 和 “default” 的 两 个 框 。 这 些 就 是 重复 键 。 最 左 
边 设 有 RNF_ROOT 标 志 的 结 点 (在 图 18-34 中 的 rnh_nodes[0]) 有 一 个 为 全 0 位 的 键 ， 但 是 它 和 上 默 
认 路 由 的 键 相 同 。 如 果 创 建 一 个 255.255.255.255 的 路 由 表 项 (但 该 地 址 是 受 限 的 广播 地 址 ， 不 会 
在 路 由 树 中 出 现 )， 则 我 们 会 在 树 的 最 右 端 结 点 (该 结 点 有 一 个 值 为 全 1 位 的 键 ) 遇 到 同样 的 问题 。 
总 的 来 说 ， 如 果 每 次 都 有 不 同 的 掩 码 ， 那 么 Net/3 中 的 radix 结 点 函数 就 允许 重复 任何 键 。 

图 18-35 给 出 了 两 个 具有 全 0 位 重复 键 的 结 点 。 在 这 个 图 中 ， 我 们 去 掉 了 rn_f1lags 中 的 
RNF_ 前 级 ， 并 且 省 略 了 非 空 父 指针 、 左 指针 和 右 指针 ， 因 为 它们 与 要 讨论 的 内 容 无 关 。 


radix node() 


32 
0x80 a si k R 
|rn flags  |ACTIVE|ROOT pu =“ 
E 2d 
位 33 结 点 的 
左 指针 rn right 


radix node() 


[rnomklist — ]NunL 
33 

o 

ACTIVE | ROOT 
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rn zeros: 














0.0.0.0 


|j16|2| 0 joojoojono; |. 0 — » 


BSockaddr in 


图 18-35 值 为 全 0 的 键 的 重复 结 点 
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图 中 最 上 面 的 结 点 即 为 路 由 树 的 顶点 一 一 图 18-4 中 顶部 位 32 对 应 的 结 点 。 接 下 来 的 两 个 
结 点 是 叶子 (它们 的 rn_b 为 负 值 )， 其 中 第 一 个 叶子 的 rn_dupedkey 成 员 指 向 第 二 个 结 点 。 
第 一 个 叶子 是 图 18-34 中 的 rnh_nodes[0] 结 构 ， 该 结构 是 树 的 左边 标 有 “end” 的 结 点 它 
设 有 RNF_ROOT 标 志 。 它 的 键 被 rn _ inithead 设 为 rn zeros, 

第 二 个 叶子 是 默认 路 由 的 表 项 。 它 的 rn_key 指 疝 值 为 0.0.0.0 的 sockaddr_in 结 构 ， 并 
具有 一 个 全 0 的 掩 码 。 由 于 掩 码 表 中 相同 的 掩 码 是 共享 的 ， 因 此 ， 该 叶子 的 rn_mask 也 指向 


rn Zeros,。 


通常 ， 键 是 不 共享 的 ， 更 不 会 与 掩 码 共 享 。 由 于 两 个 标 有 “end” 的 结 点 的 
rn _ key 指针 (具有 RNF ROOT 标 志 ) 是 由 rn inithead( 图 18-34) 创 建 的 ， 因 此 这 两 
个 指针 例外 。 左 边 标 有 “end” 的 结 点 的 键 指向 rn zeros, 右边 标 有 “end” 的 结 点 
的 键 指向 rn ones, 


最 后 一 个 是 zadix_mask 结 构 ， 树 的 顶 结 点 和 默认 路 由 对 应 的 叶子 都 指向 这 个 结构 。 这 
个 列表 是 树 的 顶 结 点 的 掩 码 列表 ， 在 查找 网 络 掩 码 时 ， 回 浏 算法 将 使 用 它 。radix_mask 结 
构 列 表 和 内 部 结 点 一 起 确定 了 运用 于 从 该 结 点 开始 的 子 树 的 掩 码 。 在 重复 键 的 例子 中 ， 掩 码 
列表 和 叶子 出 现在 一 起 ， 跟 着 的 这 个 例子 也 是 这 样 。 

现在 我 们 给 出 一 个 特意 添加 到 选 路 树 中 的 重复 键 和 所 得 到 的 掩 码 列表 。 在 图 18-4 中 有 一 
个 主机 路 由 127.0.0.1 和 一 个 网 络 路 由 127.0.0.0。 图 中 采用 了 A 类 网 络 路 由 的 默认 掩 码 ， 即 
0xff000000。 如 果 我 们 把 跟 在 A 类 网 络 号 之 后 的 24 位 分 解 成 一 个 16 位 子 网 号 和 一 个 8 位 主机 
号 ， 就 可 以 为 子 网 127.0.0 添 加 一 个 掩 码 为 0xffffff00 的 路 由 : 

bsdi $ route add 127.0.0.0 -netmask Oxffffff00 140 252 13 33 

虽然 在 这 种 情况 下 使 用 网 络 127 没 什么 实际 意义 , 但 我 们 感 兴趣 的 是 所 得 到 的 路 由 表 结 构 。 
虽然 重复 键 在 Internet 协 议 中 并 不 常见 (除了 前 面 例子 中 的 默认 路 由 之 外 )， 但 是 仍 需 要 利用 重 
复 键 来 为 所 有 网 络 的 0 号 子 网 提供 路 由 。 off 

在 网 络 号 127 的 这 三 个 路 由 表 项 中 存在 一 个 隐 含 
的 优先 规则 。 如 果 查 找 键 是 127.0.0.1， 则 它 和 这 三 个 
路 由 表 项 都 匹配 ， 但 是 只 选择 主机 路 由 ， 因 为 它 是 最 
匹配 的 : 其 掩 码 (0xffffffff) 含 有 最 多 的 1。 如 果 3505 
查找 键 是 127.0.0.2， 它 与 两 个 网 络 路 由 匹配 ， 但 是 撼 0x00000000 
码 为 0xffffff00 的 子 网 0 的 路 由 比 掩 码 为 
0xff0000 的 路 由 更 匹配 。 如 果 查 找 键 为 127.0.2.3 ， 
那么 只 与 掩 码 为 0xff000000 的 路 由 表 项 匹配 。 Noel 

图 18-36 给 出 了 添加 路 由 之 后 得 到 的 树 结构 ， 从 — 

图 18-4 中 对 应 位 33 的 内 部 结 点 处 开始 。 由 于 这 个 重复 ”图 18-36 反映 重复 键 127.0.0.0 的 路 由 树 
键 有 两 个 叶子 ， 我 们 用 两 个 框 来 表示 键 值 为 127.0.0.0 的 路 由 表 项 。 

18-37 给 出 了 所 得 到 的 radix nod 和 radix mask 结 构 。 

首先 看 一 下 每 一 个 radix_node 的 radix_mask 结 构 的 链表 。 最 上 端 结 点 (位 63) 的 掩 码 
列表 由 0xffftfff00 及 其 后 的 0xff000000 组 成 。 在 列表 中 首先 遇 到 的 是 更 匹配 的 掩 码 ， 这 
样 它 就 能 够 更 早 地 被 测试 到 。 第 二 个 zadix_node(rn_b 值 为 -357 的 那个 ) 的 掩 码 列表 与 第 一 
个 相同 。 但 是 第 三 个 radix_node 的 掩 码 列表 仅 由 值 为 0x££000000 的 掩 码 构成 。 
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图 18-37 网 络 127.0.0.0 的 重复 键 的 路 由 表 结 构 举 例 


应 注意 的 是 ， 具 有 相同 值 的 掩 码 之 间 可 以 共享 ， 但 是 具有 相同 值 的 键 之 间 不 能 共享 。 这 
是 因为 掩 码 保存 在 它们 自己 的 路 由 树 中 ， 可 以 显 式 地 被 共享 ， 而 且 值 相同 的 掩 码 经 常 出 现 ( 例 
如 ， 每 个 C 类 网 络 路 由 都 有 相同 的 掩 码 0xffffff00)， 但 是 值 相同 的 键 却 不 常见 。 


18.10 rn match ži 


现在 我 们 介绍 xn_match 国 数 ， 在 Internet 协 议 中 ， 它 被 称 为 rnh_matchaddr 国 数 。 在 
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后 面 的 学 习 中 ， 我 们 可 以 看 到 它 将 被 rtalloc1l 函 数 调 用 (而 rtalloc1l 函 数 将 被 rtalloc 略 
数 调用 )。 具 体 算法 如 下 : 

1) 从 树 的 顶端 开始 搜索 ， 直 到 到 达 与 查找 键 的 位 相应 的 叶子 。 检 测 该 叶子 ， 看 能 否 得 到 
一 个 精确 的 匹配 (图 18-38)。 

2) 检测 该 叶 结 点 ， 看 是 否 能 得 到 匹配 的 网 络 地 址 。 

3) [8] 34 ( 18-43), 

图 18-38 给 出 了 rn match 的 第 一 部 分 。 





radix.c 
135 struct radix node * 
136 rn match(v arg, head) 
137 void *v arg; 
138 struct radix node head *head; 
139 1 
140 cadar t v = y arg; 
141 struct radix node *t - head-»rnh treetop, *x; 
142 cadar t €p s vy, Op2, CDÀ3 
143 caddr t cplim, mstart; 
144 struct radix node *saved t, *top - t; 
145 int off - t-»rn off, vlen - *(u char *) cp, matched off; 
146 y* 
147 * Open code rn, search(í(v, top) to avoid overhead of extra 
148 * subroutine call. 
149 wy 
150 tor (; t-»xn.Db >= 0:7 (t 
151 if (t-»rn, bmask & cp[t-»rn. off]) 
152 t s t-»rn.r: /* right if bit on */ 
453 else 
154 t s t-»Érn.l; /* left if bit off wy 
155 ) 
156 f* 
157 * See if we match exactly as a host destination 
158 s i 
159 CD += Off; 
160 Cp2 = t-»rn key + off; 
161 cplim = v + vlen; 
162 for (; cp < cplim; cp««, CD2++) 
163 lt (*cp !s *ep2) 
164 goto onl; 
165 /* 
166 * This extra grot is in case we are explicitly asked 
167 * to look up the default.  Ugh! 
168 Eg 
169 if ((t-»rn flags & RNF ROOT) && t-»rn, dupedkey) 
170 t - t-»rn dupedkey; 
ik return t; 
i72 onl: 
radix.c 





图 18-38 rn_match 函 数 : 沿 着 树 向 下 搜索 ， 查 找 严 格 匹 配 的 主机 地 址 


135-145 第 一 个 参数 v_arg 是 一 个 插口 地 址 结构 的 指针 ， 第 二 个 参数 head 是 该 协议 的 指 问 
radix_node_head 结 构 的 指针 。 所 有 协议 都 可 调用 这 个 函数 (图 18-17)， 但 调用 时 使 用 不 同 
的 head 参 数 。 

在 变量 声明 中 ，off 是 树 的 顶 结 点 的 rn_off 成 员 ( 对 Internet 地 址 ， 其 值 为 4， 见 图 18-34)， 
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vlen 是 查找 键 插 口 地 址 结构 中 的 长 度 字段 (对 Internet 地 址 ， 其 值 为 16)。 

1. 沿 着 树 问 下 搜索 到 相应 的 叶子 
146-155 这 个 循环 从 树 的 顶 结 点 开始 ， 然 后 治 树 的 左右 分 支 搜索 ， 直 到 遇 到 一 个 叶子 为 止 
(rn_b 小 于 0)。 每 次 测试 相应 位 时 ， 都 利用 事先 计算 好 的 rn_bmask 中 的 字 市 掩 码 和 事先 计算 
好 的 rn _off 中 的 偏 移 量 。 对 Internet 地 址 而 言 ，rn_off 为 4、5、6 或 7。 

2. 检测 是 否 精 确 匹 配 
156-164 当 遇 到 叶子 时 ， 首 先 检测 能 否 精确 匹配 。 比 较 播 口 地 址 结构 中 从 协议 族 的 rn_off 值 
开始 的 所 有 字 市 。 图 18-39 给 出 了 Internet 插 口 地 址 结构 的 比较 情况 。 


vlen=16 
len 
1 字 节 1 4 8 


| 


v arg 这 12 个 字 届 要 进行 比较 
图 18-39 比较 sockaddr in 结构 时 的 各 种 变量 
如 打发 现 匹 配 不 成 功 ， 就 立刻 跳 到 on1 。 


通常 ，Ssockaddr_in 的 最 后 8 个 字 节 为 0， 但 是 地 址 解析 协议 代理 (proxy 
ARP)(21.12 节 ) 会 设置 其 中 的 一 个 为 非 0, 这 就 允许 一 个 给 定 的 IP 地 址 有 两 个 路 由 表 项 : 
一 个 对 应 于 正常 IP 地 址 (最 后 8 个 字 节 为 0)， 另 一 个 对 应 于 相同 IP 地 址 的 地 址 解析 协议 
代理 (最 后 8 个 字 节 中 有 一 个 为 非 0)。 


图 18-39 中 的 长 度 字 布 在 函数 的 一 开始 时 就 赋值 给 了 vlen， 并 且 我 们 还 会 看 到 rtallocl 
将 利用 family 成 员 来 选择 路 由 表 进 行 搜索 。 选 路 函数 未 使 用 port 成 员 。 

3. 显 式 地 检测 默认 地 址 
165-172 图 18-35 给 出 了 存储 在 键 为 0 的 重复 叶子 中 的 默认 路 由 。 第 一 个 重复 的 叶子 设 有 
RNF_ROOT 标 志 。 因 此 ， 如 果 在 匹配 的 结 点 中 设 有 RNF_ROOT 标 志 ， 并 且 该 叶子 含有 重复 
键 ， 那 么 就 返回 指针 rn_dupedkey 的 值 ( 即 图 18-35 中 含 默认 路 由 的 结 点 的 指针 )。 如 果 路 
由 树 中 没有 默认 路 由 ， 则 查找 过 程 匹配 左边 标 有 “end” 的 叶子 ( 键 为 全 0 位 ); 或 者 如 果 查 找 
时 遇 到 右边 标 有 “end” 的 叶子 ( 键 为 全 1 位 )， 那 么 返回 指针 t， 它 指向 一 个 设 有 RNE_ROOT 
示 志 的 结 点 。 我 们 将 看 到 z*tal1loc1 会 显 式 地 检查 匹配 结 点 是 否 设 有 这 个 标志 ， 并 判断 匹 
配 是 否 失 败 。 

程序 执行 到 此 时 ，rn_match 函 数 已 经 到 达 了 某 个 叶子 上 ,但 是 它 并 不 是 查找 键 的 精确 
匹配 。 函 数 的 下 一 部 分 将 检测 该 叶子 是 否 为 匹配 的 网 络 地址 ， 如 图 18-40 所 示 。 
173-174 cp 指向 该 查找 键 中 那个 不 相等 的 字 节 。matched_off 被 赋值 为 该 字 节 在 插口 地 
址 结构 中 的 位 置 偏 移 量 。 
175-183 do while 循 环 反复 与 所 有 重复 叶子 中 的 每 一 个 具有 网 络 掩 码 的 叶子 进行 比较 。 
下 面 我 们 通过 一 个 例子 来 看 这 段 代 码 。 假 定 我 们 要 在 图 18-4 所 示 的 路 由 表 中 查找 IP 地 址 
140.252.13.60。 查 找 会 在 标 有 140.252.13.32( 位 62 和 63 都 为 0) 的 结 点 处 终止 ， 该 结 点 包含 一 个 
网 络 掩 码 。 图 18-41 给 出 了 图 18-40 中 的 Eco 循环 开始 执行 时 的 结构 。 
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radix.c 
1.443 matched off - cp - v; 
174 saved t - t; 
LI do ( 
176 if (t-»rn mask) ( 
177 I" 
178 * Even if we don't match exactly as a host; 
179 * we may match if the leaf we wound up at is 
180 * a route to a net. 
181 x; 
182 Cp3 = matched off + t-»rn mask; 
183 cp2 = matched off + t-»rn key; 
184 for (; cp < cplim; CH) 
185 if ((*cp2«4 ^ *cp) & *cp3-«-«) 
186 break; 
187 it (6p == Cpllm) 
188 return t; 
189 cp = matched off + v; 
190 ) 
191 ) while (t - t-»rn dupedkey); 
192 t - saved t; 
radix.c 


图 18-40 rn match 函数 : 检测 是 否 为 匹配 的 网 络 地 址 
140.252. 13 . 60 
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图 18-41 比较 网 络 掩 码 的 例子 


虽然 查找 键 和 路 由 表 键 都 是 sockaddr_in 结 构 ， 但 是 掩 码 的 长 度 并 不 相同 。 该 掩 码 长 度 
是 非 0 字 节 的 最 小 数目 。 从 该 点 之 后 直到 max_keylen 之 间 的 所 有 字 节 都 为 0。 
184-190 逐个 字 节 地 对 查找 字 和 路 由 表 键 进行 异 或 运算 ， 并 将 结果 同 网 络 掩 码 进行 逻辑 与 
运算 。 如 果 所 得 到 的 字 节 出 现 非 0 值 ， 就 会 由 于 不 匹配 而 终止 循环 (习题 18.1)。 如 果 循 环 正常 
终止 ， 那 么 与 网 络 掩 码 进 行 逻辑 与 运算 后 的 查找 键 就 和 路 由 表 项 相 匹 配 。 程 序 将 返回 指向 该 
路 由 表 项 的 指针 。 

查看 IP 地 址 的 第 四 个 字 节 ， 我 们 可 以 从 图 18-42 中 看 出 本 例子 是 如 何 匹 配 成 功 的 ， 以 及 IP 
地 址 140.252.13.188 是 如 何 匹 配 失败 的 。 采 用 这 两 个 地 址 ， 是 因为 它们 中 的 位 57、62 和 63 都 为 
0， 查 找 都 在 图 18-41 给 出 的 结 点 上 终止 。 

第 一 个 例子 (140.252.13.60) 匹 配 成 功 是 因为 逻辑 与 运算 的 结果 为 0( 并 且 地 址 、 键 和 掩 码 中 
所 有 剩余 的 字 节 全 都 为 0)。 另 一 个 例子 匹配 不 成 功 是 因为 逻辑 与 运算 的 结果 为 非 0。 
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penas [nnnc 
查找 键 字 节 (*cp) : 0011 1100 1011 1100 
路 由 表 键 字 节 (*cp2): 0010 0000 0010 0000 
异 或 : 0001 1100 1001 1100 
aii aena € 1110 0000 E 0000 
[18-42 用 网 络 掩 码 进 ——m— 


191 如 果 路 由 表 项 含有 重复 键 ， 那 么 对 每 一 个 键 都 要 执行 一 次 该 循环 体 。 
rm_match 的 最 后 一 部 分 如 图 18-43 所 示 ， 沿 路 由 树 癌 上 回调 ， 以 查找 匹配 的 网 络 地 址 或 
默认 地 址 。 










radix.c 
193 /* start searching up the tree */ 
194 do ( 
195 struct radix mask *m; 
196 t = t-»rn p: 
197 lf (m = t-»rn 9klist) ( 
198 /* ; 
199 * After doing measurements here, it may 
200 * turn out to be faster to open code 
201 * rn search m here instead of always 
202 * copying and masking. 
203 % 
204 off - min(t-»rn off, matched off); 
205 mstart = maskedKey + off; 
206 do ( 
207 cp2 = mstart; 
208 cp3 = m-»rm mask + off; 
209 For (cp = Y Gffy 6p < cplim;) 
210 *cp2-- = *cpe« & *cp3-e-; 
211 X -.rn search(maskedKey, t); 
212 while (x && x-»rn mask !- m-»rm mask) 
213 X = x-»rn dupedkey; 
214 if (x && 
2415 (Becmp(mstart, x-»rn key + off, 
216 vlen = off) == 0)) 
241.7 return Xx; 
218 ) while (m - m-»rm mklist); 
219 ) 
220 ) while (t !- top); 
221 return 0; 
222 3$ 

radix.c 


图 18-43 rn matche: 沿 树 同上 回潮 


193-195 do while 循 环 沿 着 路 由 树 一 直 癌 上 ， 检 测 每 一 层 的 结 点 ， 直 至 检测 到 树 的 顶端 为 止 。 
196 指向 父 结 点 的 指针 的 值 被 赋 给 了 指针 t， 即 向 上 移动 了 一 层 。 可 见 ， 在 每 一 个 结 点 中 包 
— nus MP. 指针 能 够 简化 回溯 操作 。 

197-210 对 于 回 沽 到 的 每 一 层 ， 只 要 内 部 结 点 的 掩 码 列表 非 空 ， 就 对 该 层 进 行 检 测 。 
rn mk1list 是 指向 zadix _ node 结构 的 链表 的 指针 ， 链 表 中 的 每 一 个 zadix_node 结 构 都 
包含 一 个 掩 码 ， 这 些 掩 码 将 应 用 于 从 该 结 点 开始 的 子 树 。 程 序 中 的 内 部 4o ”while 循环 将 遍 


历 每 一 个 radix_ mask 结构 。 
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利用 前 面 的 例子 ，140.252.13.188， 图 18-44 给 出 了 在 最 内 层 的 for 循 环 开始 时 的 各 种 数据 
结构 。 这 个 循环 对 每 个 掩 码 中 的 字 节 和 对 应 的 查找 键 的 字 节 进行 逻辑 与 操作 ， 并 将 结果 保存 
在 全 局 变量 maskedKey 中 。 该 掩 码 值 为 0xffffffe0， 搜索 会 从 图 18-4 中 的 叶 结 扩 
140.252.13.32 处 回溯 两 层 ， 到 达 测 试 位 62 的 结 点 。 


140.252. 13 . 188 
查找 键 :| 16| | |8c|fc|0albc 
matched_off = t 
radix node() ! cplim 
de 

















62 


2 
RNF ACTIVE 
7 


radix maskí) 






255 . 255 . 250 . 224 


| off-7 > 


mstart 
cp2 


图 18-44 利用 掩 码 过 的 查找 键 进行 再 次 搜索 的 准备 


for 循 环 完 成 后 ， 掩 码 过 程 也 就 完成 了 ， 再 调用 rn_search( 如 图 18-48 所 示 )， 其 调用 参 
数 以 maskedKey 为 查找 键 ， 以 指针 t 为 查找 子 树 的 顶点 。 图 18-45 给 出 了 我 们 所 举例 子 中 的 
maskedKey 的 值 。 


maskedey[| —— — — — — — aj] 0  - 
| off =7 = 


mstart 


图 18-45 调用 rn search 时 的 maskedKey 


字 节 0xa0 是 0xbc(188， 查 找 键 ) 和 0xe0( 掩 码 ) 逻 辑 与 运算 的 结果 。 
211 rn_search 从 起 点 开始 沿 着 树 往 下 搜索 ， 根 据 查 找 键 来 确定 沿 向 左 或 向 右 的 分 文 进行 
搜索 ， 直 到 到 达 某 个 叶子 。 在 这 个 例子 中 ， 查 找 键 有 9 个 字 节 ， 如 图 18-45 所 示 ， 所 到 达 的 是 图 
18-4 中 标 有 140.252.13.32 的 那个 叶子 ， 这 是 因为 在 字 节 0xa0 中 位 62 和 63 都 为 0。 图 18-46 给 出 
了 调用 Bcmp 检 验 是 否 匹 配 时 的 数据 结构 。 

由 于 这 两 个 9 字 节 的 字符 串 不 相同 ， 所 以 这 次 比较 失败 。 


£183x Radix} X5 dj Š 


radix node() 


vlen - off-9 
rn, dupedkey 一 一 一 


maskedKey[ TEST 0 | 
| off-7 | 


mstart 


图 18-46 maskedKey 和 新 叶 结 点 之 间 的 比较 


140.252. 13 . 188 


Lip peose|fcjod|b| — 0 — — 




















RNF. ACTIVE 







查找 键 : 





| matched off =7 ; | t 
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t cplim 


radix node() v 


t 
rn_p 


rn_bmask 0x80 


ACTIVE | ROOT 


rn off 4 


radix mask(í() 









radix node() | off =4 vlen - off=12 - 


rn, mklist NULL 
Yn.D mstart 


I 
Uo 
Uo 


rn b 

rn bmask 
rn flags ACTIVE | ROOT 
rn_key 

rn_mask NULL 
rn_dupedkey 


e 


radix node() 
rn mklist 


rn b -— 
rn, bmask 0 
rn, flags ACTIVE 


Cs 0,0, Q 
rn_key Jef E .00|00|]00]|00] — &— $0 — — | 
rn, mask 
rn dupedkey NULL | off =4 | 


图 18-47 回溯 到 路 由 树 的 顶端 和 查找 默认 叶子 的 rn_search 
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212-221 该 while 循 环 处 理 各 重复 键 ， 且 处 理 每 个 重复 键 时 的 掩 码 不 同 。 唯 一 被 比较 的 重 
复 键 是 那个 rn_mask 指 针 与 m- >rm_mask 相 等 的 键 。 下 面 以 图 18-36 和 图 18-37 为 例 进行 说 明 。 
如 末 查 找 从 位 63 的 结 点 处 开始 ， 第 一 次 内 部 do while 循环 中 ，m 指 向 zadix_mask 结 构 
Oxffffff00, "rn search 返 回 指 回 第 一 个 重复 叶子 127.0.0.0 的 指针 时 ， 该 叶子 的 
rm_mask 等 于 m- >rm_mask， 因 此 ， 就 调用 Bcmp 。 如 果 比 较 失 败 ，m 的 值 就 被 设置 成 指向 列 
表 中 的 下 一 个 zadix_mask 结 构 ( 具 有 掩 码 0xff000000) 的 指针 ， 并 且 对 新 掩 码 再 次 执行 ao 
while 价 环 体 。zrn_search 再 一 次 返回 指向 第 一 个 重复 叶子 127.0.0.0 的 指针 ， 但 是 它 的 
rn_mask 并 不 等 于 m- >zm_mask。WNhile 继 续 进行 到 下 一 个 重复 叶子 ， 它 的 rn_mask 与 m- 
>zm_mask 恰 好 相等 。 

现在 回 到 查找 键 为 140.252.13.188 的 例子 中 ， 由 于 从 检测 位 62 的 结 点 处 开始 的 搜索 失败 ， 
因此 ， 沿 着 树 同 上 继续 回 滴 ， 直 到 到 达 树 的 顶点 ， 该 顶点 就 是 沿 树 同上 的 下 一 个 rn_mkl1ist 
为 非 空 的 结 点 。 

图 18-47 给 出 了 到 达 树 的 顶 结 点 时 的 数据 结构 。 此 时 ， 计 算 maskedKey( 为 全 0)， 并 且 
rn_search 从 这 个 结 点 ( 树 的 顶 结 点 ) 处 开始 ， 继 续 沿 着 树 的 左 分 支 向 下 两 层 到 达 图 18-4 中 标 
有 “default” 的 叶子 。 

当 rn_search 返 回 时 ，x 指 问 rn_b 值 为 -33 的 radix node， 这 是 从 树 的 顶端 开始 沿 两 
个 左 分 支 癌 下 之 后 遇 到 的 第 一 个 叶子 。 但 是 x- >rn_mask( 为 空 ) 与 m- >rm_mask 不 等 ， 因 此 ， 
将 x- >zrn_dupedkey 赋 给 x。 用 于 测试 的 while 循 环 再 次 执行 ， 但 是 ， 此 时 x-zn_mask 等 
于 m- >zrm_mask， 因 此 该 whi1le 循 环 终 止 。Bcmp 对 从 mstaxzt 开 始 的 12 个 值 为 0 的 字 节 和 从 
x->rn_key 加 4 开始 的 12 个 值 为 0 的 字 节 进行 比较 ,结果 相 等 ， 函 数 返 回 指针 x， 该 指针 指向 
默认 路 由 的 路 由 项 。 


18.11 rn search ži 


在 前 面 一 市 中 ， 我 们 已 经 知道 [rn_match 调 用 了 rn _search 来 搜索 路 由 表 的 子 树 。 如 图 
18-48 所 示 。 


radix.c 
79 struct radix node * 
80 rn search(v arg, head) 
81 void *v arg; 
82 struct radix node *head; 
83 ( 
84 struct radix node *x; 
85 caddr t v; 
86 for (x = head, v = v arg; x-»rn b >= 0;) ( 
87 if (x-»rn bmask & v[x-»rn off]) 
88 X = x-»rn r; /* right if bit on */ 
89 else 
90 x = XxX-»rn.l; /* left if bit off */ 
91 ) 
92 return (x); 
aab radix.c 


图 18-48 rn search% 


这 个 循环 和 图 18-38 中 的 相似 。 它 在 每 一 个 结 点 上 比较 查找 键 中 的 一 个 位 ， 如 果 该 位 为 0， 
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就 通 向 左边 的 分 支 ， RURAL, WAALS. EAR — AFRA IER, TEX IRI 
指 癌 该 叶子 的 指针 。 


18.12 小 结 


每 一 个 路 由 表 项 都 由 一 个 键 来 标识 : 在 IP 协 议 中 就 是 目的 IP 地 址 ， 该 IP 地 址 可 以 是 一 个 主 
机 地 址 或 者 是 一 个 具有 相应 网 络 掩 码 的 网 络 地 址 。 一 旦 键 的 搜索 确定 了 路 由 表 项 ， 在 该 表 项 
中 的 其 他 信息 就 会 指定 一 个 路 由 器 的 IP 地 址 ， 到 目的 地 址 的 数据 报 就 会 发 往 该 指定 地 址 ， 还 
会 指明 要 用 到 的 接口 的 指针 、 度 量 ， 等 等 。 

由 Internet 协 议 维护 的 信息 是 oute 结 构 ， 该 oute 结 构 只 由 两 个 成 员 构 成 : 指 疝 路 由 表 
项 的 指针 和 目的 地 址 。 在 UDP、TCP 和 原始 IP 使 用 的 每 个 Internet 协 议 控 制 块 中 ， 我 们 都 会 遇 
到 由 Internet 协 议 维护 的 zxoute 结 构 。 

Patricia 树 数据 结构 非常 适合 于 路 由 表 。 由 于 路 由 表 的 查找 要 比 添加 或 者 删除 路 由 频繁 得 
多 ， 因 此 从 性 能 的 角度 来 看 ， 在 路 由 表 中 使 用 Patricia 树 就 更 加 有 意义 。Patricia 树 虽然 不 利于 
添加 和 删除 这 些 附 加 工作 ， 但 是 加 快 了 查找 的 速度 。[Sklower 1991] 给 出 的 radix 树 方法 和 
Net/1 散 列表 的 比较 结果 表明 ， 用 radix 树 方法 构造 测试 树 用 比 NeV1 散 列表 法 快 一 倍 ， 搜 索 速度 
快 三 倍 。 
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18.1. 我 们 说 过 ， 在 图 18-3 中 ， 查 找 键 与 路 由 表 项 匹配 的 一 般 条 件 是 ， 它 和 路 由 表 掩 码 的 
逻辑 与 运算 的 结果 等 于 路 由 表 键 。 但 是 在 图 18-40 中 采用 了 不 同 的 测试 方法 。 请 建 
立 一 个 逻辑 真 值 表 以 证 明 这 两 种 方法 等 价 。 

18.2 假设 某 个 Net/3 系 统 中 的 路 由 表 需 要 20 000 个 表 项 (IP 地 址 )。 在 不 考虑 掩 码 的 情况 下 ， 
请 估算 大 约 需 要 多 大 的 存储 器 ? 

18.3 radix_node 结 构 对 路 由 表 键 的 长 度 限制 是 多 少 ? 


P19 MARKOA c. 
19.1 引言 


内 核 的 各 种 协议 并 不 直接 使 用 前 一 章 提供 的 函数 来 访问 选 路 树 ， 而 是 调用 本 章 提 供 的 几 
个 函数 : xtalloc 和 ztalloc1 是 完成 路 由 表 查 询 的 两 个 国 数 ， ztredquest 国 数 用 于 添加 和 
删除 路 由 表 项 ， 另 外 大 多 数 接口 在 接口 连接 或 断 开 时 都 会 调用 函数 ztinit。 

选 路 消息 在 两 个 方向 上 传递 信息 。 进 程 ( 如 route 命 令 ) 或 守护 进程 (routed 或 gated) 把 选 路 
消息 写 入 选 路 插口 ， 以 使 内 核 添 加 路 由 、 删 除 路 由 或 修改 现 有 的 路 由 。 当 有 事件 发 生 时 ， 如 接 
口 断 开 、 收 到 重 定向 等 ， 内 核 也 会 发 送 选 路 消息 。 进 程 通过 选 路 插口 来 读 取 它们 感 兴 趣 的 内 容 。 
在 本 章 中 ， 我 们 将 讨论 这 些 选 路 消息 的 格式 及 其 含义 ， 关 于 选 路 插口 的 讨论 将 在 下 一 章 进行 。 

内 核 还 提供 了 另 一 种 访问 路 由 表 的 接口 ， 即 系统 的 sysct1 调 用 ， 我 们 将 在 本 章 的 结尾 部 
分 阐述 。 该 系统 调用 允许 进程 读 取 整个 路 由 表 或 所 有 已 配置 的 接口 及 接口 地 址 。 


19.2 rtalloc#lrtalloc1 A% 


Tr, PRHDAHJAdkAoBuWHrtallocfürtallocirmZos:;S48g., 19-14 T 


rtalloc, 


route.c 
58 void 
59 rtalloc(ro) 
60 struct route *ro; 
61 ( 
62 if (ro-»ro rt && ro-»ro rt-»rt ifp && (ro-»ro rt-»rt flags & RTF UP)) 
63 return; Ak XXX Fy 
64 : rO->ro FE = rtallocl(&ro-»ro dst, 1); 
65 } 
route.c 


图 19-1 rtalloctER7X 


58-65 参数 ro 是 一 个 指针 ， 它 指向 TCP 或 UDP 所 使 用 的 Internet PCB( 第 22 章 ) 中 的 route 结 
构 。 如 果 ro 已 经 指向 了 某 个 rtentry 结 构 ( 即 ro_rt 非 空 )， 而 该 结构 指 同 一 个 接口 结构 且 路 
由 有 效 ， 则 函数 立即 返回 。 否 则 ，rtal1locl 将 被 调用 ,调用 的 第 二 个 参数 为 1!。 我 们 很 快 会 
看 到 该 参数 的 用 途 。 

如 图 19-2 所 示 ，rtalloc1li 调 用 了 rnh matchaddrrAZX, * F Internett Eo ij, 1% ER 
数 就 是 rn match 数 (图 18-17)。 
66-76 第 一 个 参数 是 一 个 指针 ， 它 指向 一 个 含有 待 查 找 地 址 的 插口 地 址 结构 。sa_family 
成 员 用 于 选择 所 查找 的 路 由 表 。 

1. 调用 rn match 
77-78 如 果 符 合 下 列 三 个 条 件 ， 则 查找 成 功 。 

1) 存在 该 协议 族 的 路 由 表 : 

2) xn_match 返 回 一 个 非 空 指 针 ， 并 且 
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3) 匹配 的 radix node 结 构 没 有 设置 RNF_ ROOT 标志 。 
注意 ， 树 中 标 有 end 的 两 个 叶子 都 设 有 RNF_ROOT 标 志 。 


route.c 

66 struct rtentry * 

67 rtallocl(dst, report) 

68 struct sockaddr *dst; 

69 int report; 

70 ( 

71 struct radix node head *rnh - rt tables[dst-»sa family]; 
72 struct Ytentry "ff; 

73 struct radix node *rn; 

74 struct rtentry *newrt = 0; 

75 struct rt addrinfo info; 

76 int S = Ssplnet(), err = 0, msgtype = RTM MISS; 

77 if (rnh && (rn - rnh-»rnh matchaddr((caddr t) dst, rnh)) && 
78 ((rn-»rn flags & RNE ROOT) == 0)) 4 

79 newrt - rt - (struct rtentry *) rn; 

80 if (report && (rt-»rt flags & RTF CLONING)) ( 

81 err - rtrequest(RTM RESOLVE, dst, SA(0), 

82 SA(0), 0, &newrt); 

83 if (err) ( 

84 newrt - rt; 

85 rt-»rt refcnt--; 

86 goto miss; 

87 ) 

88 if ((rt - newrt) && (rt-»rt flags & RTF XRESOLVE)) ( 
89 msgtype - RTM RESOLVE; 

90 goto miss; 

91 ) 

92 ) else 

93 rt-»rt refcnt-«-*; 

94 ) else ( 

95 rtstat.rts unreach-«-*; 

96 miss:if (report) ( 

97 bzero((caddr t) & info, sizeof(info)); 

98 info.rti info[RTAX DST] - dst; 

99 rt missmsg(msgtype, &info, 0, err); 
100 ) 
101 ) 
102 splx(s); 
103 return (newrt); 
104 ) 

route.c 
图 19-2 rtalloc1 f% 
2. 查找 失败 


94-101 在 这 三 个 条 件 中 只 要 有 一 个 条 件 没 有 得 到 满足 ， 查 找 就 会 失败 ， 并 且 统 计 值 
rts _ unreach 也 要 递增 。 这 时 ， 如 果 调 用 rtallcol 的 第 二 个 参数 (report) 为 1!， 就 会 产生 
一 个 选 路 消息 。 任 何 感 兴趣 的 进程 都 可 以 通过 选 路 插口 读 取 该 消息 。 选 路 消息 的 类 型 为 
RTM_MISS， 并 且 函 数 返 回 一 个 空 指针 。 

79 ”如 果 三 个 条 件 都 满足 ， 则 查找 成 功 。 指 向 匹配 的 radix_node 结 构 的 指针 保存 在 rt 和 
newrt 中 。 注 意 ， 在 rtentry 结 构 的 定义 中 (图 18-24)， 两 个 radix_node 结 构 在 开头 的 位 置 
处 ， 如 图 18-8 所 示 ， 其 中 第 一 个 代表 一 个 叶 结 点 。 因 此 ，rn_match 返 回 的 radix_node 结 
构 的 指针 事实 上 是 一 个 指向 rtentry 结 构 的 指针 ， 该 rtentry 结 构 是 一 个 匹配 的 叶 结 点 。 
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3. GI E vi [E e 
80-82 如 果 调 用 的 第 二 个 参数 非 零 ， 而 且 匹 配 的 路 由 表 项 设 有 RTF_CLONING 标 志 ， 则 调用 
rtrequestH AL AXSRTM RESOLVE 命 令 来 创建 一 个 新 的 rtentry 结 构 ， 该 结构 是 在 询 结果 
的 克隆 。ARP 将 针对 多 播 地 址 利用 这 一 机 制 。 

4. 克隆 失败 
83-87 如 果 rtrequest 返 回 一 个 差错 ，newrt 就 被 重新 设置 成 rn_match 所 返回 的 表 项 ， 
并 增加 它 的 引用 计数 。 然 后 程序 跳 转 到 miss 处 ， 产 生 一 条 RTM_MISS 消 息 。 

S. 检查 是 人 否 需 要 外 部 转换 
88-91 如 果 rtrequest 成 功 ， 并 且 新 克隆 的 表 项 设 有 RTF XRESOLVE 标 志 ， 则 程序 跳 至 
miss 处 ,但 这 次 产生 的 是 RTM_RESOLVE 消 息 。 该 消息 的 目的 是 为 了 把 路 由 创建 的 时 间 通 知 
给 用 户 进 程 ， 在 IP 地 址 到 X.121 地 址 的 转换 过 程 中 会 用 到 它 。 

6. 为 正和 的 成 功 查找 递增 引用 计数 
92-93  ” 当 查 找 成 功 但 没有 设置 RTF CLONING 标 志 时 ， 该 语句 将 递增 路 由 表 项 的 引用 计数 。 
这 是 本 函数 正常 情况 下 的 处 理 流 程 ， 之 后 程序 返回 一 个 非 空 的 指针 。 

然 是 这 样 小 的 一 段 程序 ， 但 是 在 rtalloci 的 处 理 过 程 中 有 很 多 选择 。 该 函数 有 7 个 不 

同 的 流程 ， 如 图 19-3 所 示 。 


查找 失败 rg 290 3 aud mM Mae: 
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图 19-3 ztalloc1 处 理 过 程 小 结 


需要 解释 的 是 ， 如 果 存 在 默认 路 由 ， 前 两 行 ( 找 不 到 路 由 表 项 的 流程 ) 是 不 可 能 出 现 的 。 还 
有 ， 在 第 ;、 第 6 两 行 中 的 rt_refcnt 也 做 了 递增 ， 因为 这 两 行 在 调用 rtrequest 时 使 用 了 
RTM RESOLVE 参 数 ， 递 增 在 rtrequest 中 完成 。 
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ZRTFREE, Zu]ÉEl9-ABps, DXfESLUHiFEUIN T SET IBIA VHrtfreermZ «Wl, "X 
完成 引用 计数 的 递减 。 
209-213 rtfree 国 数 如 图 19-5$ 所 示 。 当 不 存在 对 ztentzy 结 构 的 引用 时 ， 国 数 就 释放 该 
结构 。 例 如 ， 在 图 22-7 中 ， 当 释放 一 个 协议 控制 块 时 ， 如 果 它 指 癌 一 个 路 由 表 项 ， 则 需要 调 
用 ztfree。 
105-115 首先 递减 路 由 表 项 的 引用 计数 ， 如 果 它 小 于 等 于 0 并 且 该 路 由 不 可 用 ， 则 该 表 项 可 
以 被 释放 。 如 果 该 表 项 设 有 RNE_RACTIVE 或 RNE_ROOT 标 志 ， 那 么 这 是 一 个 内 部 差错 。 因 为 ， 
如 果 设 有 RNEF_AcCTIVE， 那 么 该 结构 仍 是 路 由 表 的 一 部 分 :如 和 东 设 有 RNE_ROOT Jb 
一 个 由 rn inithead 创 建 的 标 有 end 的 结构 。 
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route.h 
209 #define RTFREE (rt) \ 
210 lf ((rt)-»rt.refcnt <= 1) y 
211 rtfree(rt); \ 
212 else \ 
213 (rt)-»rt refcnt--; /* no need for function call */ 
route.h 
[19-4  Z:RTFREE 
route.c 
105 void 
106 rtfree(rt) 
107 struct rtentry *rt; 
108 ( 
109 struct ifaddr *ifa; 
110 if (rt xs 0) 
111 panic("rtfree"); 
112 rt-»rt refcnt--; 
113 if (rt-»rt refcnt <= 0 && (rt-»rt flags & RTF UP) == 0) ( 
114 if (rt-»rt nodes-»rn flags & (RNF ACTIVE | RNF. ROOT)) 
115 panic("rtfree 2"); 
116 rttrash--; 
Lid if (rt-»rt refcnt « O) ( 
118 printf("rtfree: %x not freed (neg refs)\n", rt); 
119 return; 
120 ) 
t21 ifa = rt-»rt ifa; 
122 IFAFREE (ifa); 
123 Free(rt key(rt)); 
124 Free (rt); 
i25 ) 
126 ) 
route.c 


图 19-5 ztfree 国 数 : 释放 一 个 rtentry 结 构 


116 rttrash 是 一 个 用 于 调试 的 计数 器 ， 记 录 那 些 不 在 选 路 树 中 但 仍 未 释放 的 路 由 表 项 的 
数目 。 当 rtrequest 开 始 删 除 路 由 时 ， 它 被 递增 ,然后 在 这 儿 递减 。 正 常情 况 下 ， 它 的 值 应 
该 是 0。 

1. 释放 接口 引用 
117-122 先 查 看 引用 计数 。 确 认 引 用 计数 非 负 后 ，IFAFREE 将 递减 ifaddr 结 构 的 引用 计 
数 。 当 计数 值 递减 为 零 时 ， 调 用 ifafree 释 放 它 。 

2. 释放 选 路 存储 器 
123-124 释放 由 路 由 表 项 关键 字 及 其 网 关 所 占 的 存储 器 。 我 们 会 看 到 rt _setgate 把 它们 
分 配 在 存储 器 的 同一 个 连 着 的 块 中 。 因 此 ， 只 调用 一 个 Frzee 就 可 以 同时 把 它们 释放 。 最 后 还 
要 释放 rtentry 结 构 。 


路 由 表 引 用 计数 


路 由 表 引 用 计数 (rt_refcnt) 的 处 理 与 其 他 许多 引用 计数 的 处 理 不 同 。 我 们 看 到 ， 在 图 
18-2 中 ， 大 多 数 路 由 的 引用 计数 为 0， 而 这 些 没 有 引用 的 路 由 表 项 并 没有 被 删除 。 原 因 就 在 
rtfree 中 ; 只 有 当 RTF_UP 标 志 被 删除 时 ， 引 用 计数 为 0 的 表 项 才 会 被 删除 。 而 仅 当 从 选 路 
树 中 删除 路 由 时 ， 该 标志 才 会 被 rtrequest 删 除 。 
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大 多 数 路 由 是 按 如 下 方式 使 用 的 。 
“如 果 到 菏 接 口 的 路 由 是 在 配置 该 接口 时 自动 创建 的 (典型 的 ,例如 以 太 网 接口 的 配置 )， 
则 Ytinit 用 命令 参数 RTM ADD 来 调用 rtquest， 以 创建 新 的 路 由 表 项 ， 并 设置 它 的 引 
用 计数 为 1。 然 后 ，ztinit 在 退出 前 把 该 引用 计数 递减 成 0。 
对 于 点 到 点 接口 的 处 理 过 程 也 是 类 似 的 ， 所 以 路 由 的 引用 计数 也 是 从 0 开始 。 
如 和 朱 路 由 是 由 route 命 令 手 工 创建 的 ， 或 者 是 由 选 路 守护 进程 创建 的 ， 处 理 过 程 同 样 
是 类 似 的 。route _output 用 命令 参数 RTM ADD 来 调用 rtrequest， 并 设置 新 路 由 
的 5 上 用 计数 为 1。 在 退出 前 ，route_output 把 该 引用 计数 递减 到 0。 
因此 ， 所 有 新 创建 的 路 由 都 是 从 引用 计数 0 开始 的 。 
。 当 TCP 或 UDP 在 插口 上 发 送 IP 数 据 包 时 ，ip _output 调 用 rtalloc，rtalloc 再 调用 
rtallocl。 如 图 19-3 所 示 ， 如 果 找 到 了 路 由 ，rtallocli 就 会 递增 其 引用 计数 。 
所 查找 到 的 路 由 称 为 被 持 路 由 (held route)， 因 为 协议 持 有 指向 路 由 表 项 的 指针 ， 该 指针 
通 前 被 包含 在 协议 控制 块 中 的 zxoute 结 构 里 。 一 个 被 其 他 协议 持 有 的 ztentzy 结 构 是 
不 能 被 删除 的 。 所 以 ， 在 rtfree 中 ， 当 引用 计数 为 0 时 ，rtentry 结 构 才能 被 删除 。 
“协议 通过 调用 RTFREE 或 rtfree 来 释放 被 持 路 由 。 在 图 8-24 中 ， 当 ip_output 检 测 到 
目的 地 址 改变 时 ， 我 们 已 经 使 用 了 这 种 处 理 。 在 第 22 章 中 ， 释 放 持 有 路 由 的 协议 控制 块 
时 ， 我 们 还 会 遇 到 这 种 处 理 。 
在 后 面 的 代码 中 可 能 会 引起 混淆 的 是 ，rtallocl 经 常 被 调用 以 判断 路 由 是 否 存 在 ， 而 调 
用 者 并 非 试 图 持 有 该 路 由 。 因 为 rtallocl 递 增 了 该 路 由 的 引用 计数 器 ， 所 以 调用 者 就 立即 
递减 该 计数 器 。 
考虑 一 个 被 rtrequest 删 除 的 路 由 。 它 的 RTF_UP 标 志 被 清除 ， 并 且 ， 如 果 没 有 被 持 有 
( 它 的 引用 计数 为 0)， 就 要 调用 rtfree。 但 rtfree 认 为 引用 计数 小 于 0 是 错 的 ， 所 以 
rtrequest 查 看 它 的 引用 计数 ， 如 果 小 于 等 于 0， 就 递增 该 计数 值 并 调用 rtfree。 通 常 ， 这 
将 使 引用 计数 变 成 1， 之 后 ，rtfree 把 引用 计数 递减 到 0， 并 删除 该 路 由 。 


19.4 rtrequestM ži 


rtrequest Á E US IAA ER ER ARMIR. 119-625 H T IA ER — 28 R fb 
国 数 。 





route output 


图 19-6 调用 rtrequest 的 函数 
rtrequest 是 一 个 switch 语 句 ， 每 个 case 对 应 一 个 命令 : RTM ADD, RTM DELETE 
和 RTM_RESOLVE。 图 19-7 给 出 了 该 国 数 的 开头 一 段 以 及 RTM_DELETE 命 令 的 处 理 。 
290-307 第 二 个 参数 ，dst， 是 一 个 插口 地 址 结构 ， 它 指定 在 路 由 表 中 添加 或 删除 的 表 项 。 
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表 项 中 的 sa_family 用 于 选择 路 由 表 。 如 果 E1ags 参 数 指出 该 路 由 古 主机 路 由 (而 不 是 到 茶 
个 网 络 的 路 由 )， 则 设置 netmask 指 针 为 空 ， 忽 略 调 用 者 设置 的 任何 值 。 


route.c 
290 int 
291 rtrequest (req, dst, gateway, netmask, flags, ret nrt) 
292 int req, flags; 
293 struct sockaddr *dst, *gateway, *netmask; 
294 struct rtentry **ret nrt; 
295 1 
296 Tnt s = splnetí():; 
297 int érxror = D; 
298 struct rtentry *rt; 
299 struct radix node *rn; 
300 struct radix node head *rnh; 
301 struct ifaddr *ifa; 
302 struct sockaddr *ndst; 
303 $define senderr(x) ( error = x ; goto bad; ) 
304 if ((rnh = rt tables[dst-»sa family]) -- 0) 
305 senderr (ESRCH); 
306 if (flags & RTF HOST) 
307 netmask = 0; 
308 switch (req) { 
309 case RTM_DELETE: 
310 if ((rn = rnh-»rnh deladdr(dst, netmask, rnh)) == 0) 
AII senderr (ESRCH); 
312 if (rn-»rn flags & (RNF ACTIVE | RNF ROOT)) 
313 panic("rtrequest delete"); 
314 rt  (S8trüct rtentry *) rn; 
315 rt-»rt flags &- "RTF UP; 
316 if (rt-»rt gwroute) + 
34.1 rt s rt-»rt gwroute; 
318 RTFREE(rt); 
319 (rt = (struct rtentry *) rn)-»rt gwroute = 0; 
320 
3441 if ((ifa = rt-»rt ifa) && ifa-»ifa rtrequest) 
322 ifa-»ifa rtrequest(RTM DELETE, rt, SA(0)); 
223 rttrash-4-«; 
324 1f (ret nrt) 
325 *rot nrt = rt: 
326 else if (rt-»rt refcnt <= 0) ( 
327 rt->rt_refcnt++; 
328 rtfree(rt); 
329 } 
330 break; 
route.c 





图 19-7 rtrequesttAZE: RTM_DELETE 命 令 


1. 从 选 路 树 中 删除 路 由 
309-315 rnh daeladdr 畏 数 ( 图 18-17 中 的 xzn_delete) 从 选 路 树 中 删除 表 项 ， 返 回 相 应 
rtentry 结 构 的 指针 ， 并 清除 RTF_UP 标 志 。 

2. 删除 对 网 关 路 由 表 项 的 引用 
316-320 如 果 该 表 项 是 一 个 经 过 某 网 关 的 非 直接 路 由 ， 则 RTEFREE 递 减 该 网 关 路 由 表 项 的 
引用 计数 。 如 它 的 引用 计数 被 减 为 0， 则 删除 它 。 设 置 rt_gwroute 指 针 为 空 ， 并 将 rt 设置 
成 原来 要 删除 的 表 项 。 
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3. aH Br n ick ER 
321-322 üKikXJuEXIifa rtrequestiK Zik, WHIZ. ARPZ SHE , 
例如 ， 在 第 21 章 中 用 它 来 删除 对 应 的 ARP 表 项 。 

4. 返回 指针 或 删除 引用 
323-330 因为 该 表 项 在 接着 的 代码 里 不 一 定 被 删除 ， 所 以 递增 全 局 变量 *ttzash。 如 果 调 
用 者 需要 选 路 树 中 被 删除 的 rtentzy 结 构 的 指针 ( 即 如 果 zet_nzt 非 空 )， 则 返回 该 指针 ， 但 
此 时 不 能 释放 该 表 项 : 调用 者 必须 在 使 用 完 该 表 项 后 调用 rtfree 来 删除 它 。 如 果 ret_nrt 
为 空 ， 则 该 表 项 被 释放 : 如 果 它 的 引用 计数 小 于 等 于 0， 则 递增 该 计数 值 ， 并 调用 rtfree。 
break 语 句 将 使 尔 数 退出 。 

图 19-8 给 出 了 函数 的 下 一 部 分 ， 用 于 处 理 RTM_RESOLVE 命 令 。 只 有 rtallocl 能 够 携带 
此 命令 参数 调用 本 函数 。 也 只 有 在 从 一 个 设 有 RTF_CLONING 标 志 的 表 项 中 克隆 一 个 新 的 表 
项 上 时，rtallocl 才 这 样 用 。 


route.c 
331 case RTM_RESOLVE: 
332 1f (ret mre se I {rE = tret nrt) == 0) 
333 senderr (EINVAL); 
334 ifà = ft-»rt.ifa;- 
335 flags = rt-»rt flags & "RTF CLONING; 
336 gateway - rt-»rt gateway; 
337 if ((netmask - rt-»rt genmask) -- 0) 
338 flágs [s RTE.HOST; 
339 goto makeroute; 
route.c 


图 19-8 rtrequestrAZÉ: RTM_RESOLVE 命 令 


331-339 最 后 一 个 参数 ，ret_nrt， 在 这 个 命令 里 的 用 途 不 同 : 它 是 一 个 设 有 
RTF_CLONING 标 志 的 路 由 表 项 的 指针 (图 19-2)。 新 的 表 项 具有 相同 的 rt_ifa 指 针 、 相 同 的 
rt_gateway 和 相同 的 标志 (RTF_CLONING 标 志 被 清除 )。 如 果 被 克隆 表 项 的 rt_genmask 指 
针 为 空 ， 则 新 表 项 是 一 个 主机 路 由 ， 因 此 要 设置 它 的 RTF_HOST 标 志 ; 否则 新 表 项 为 网 络 路 
由 ， 其 网 络 掩 码 通过 复制 rt_genmask 得 到 。 在 本 市 的 结尾 部 分 ， 我 们 给 出 了 克隆 带 网 络 掩 
码 的 路 由 的 一 个 例子 。 这 个 case 将 跳 转 至 下 个 图 中 的 makeroute 标 记 处 继续 进行 。 

图 19-9 给 出 了 RTM_ADD 命 令 的 代码 。 

5. 定位 相应 的 接口 
340-342 国 数 ifa_ ifwithroute 为 目的 (dst) 查 找 适 当 的 本 地 接口 ， 并 返回 指 问 该 接口 
的 ifaddqr 结 构 的 指针 。 

6. 为 路 由 表 项 分 配 存储 需 
343-348 分 配 了 一 个 rtentry 结 构 。 在 前 一 章 中 我 们 知道 ， 该 结构 包含 了 两 个 选 路 树 的 
radix node 结 构 及 其 他 路 由 信息 。 该 结构 被 清 零 ， 之 后 ， 其 标志 rt_f1lags 被 设置 成 调用 
本 函数 的 flags 参 数 ， 同 时 再 设置 RTF_UP 标 志 。 

7. 分 配 并 复制 网 关 地 址 
349-352 rt _ gateway 国 数 ( 图 19-11) 为 路 由 表 (aQst) 及 其 gateway 分 配 了 存储 器 ， 然 后 将 
gateway 复 制 到 新 分 配 的 存储 器 中 ， 并 设置 指针 rt_key、rt_gateway 和 rt gwroute, 
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route.c 
340 case RTM_ADD: 
341 if ((ifa = ifa.ifwithroute(flags, dst, gateway)) == 0) 
342 ` senderr (ENETUNREACH) ; 
343 makeroute: 
344 R Malloc(rt, struct rtentry *, sizeof(*rt)); 
345 LE [rb =s pj 
346 senderr (ENOBUFS) ; 
347 Bzero(rt, sizeof(*rt)); 
348 rt-»rt. flags = RTF UP | flags; 
349 if (rt setgate(rt, dst, gateway)) ( 
350 Pree(rt]; 
ISL senderr (ENOBUFS ) ; 
352 } 
353 ndst = rt ky (rt); 
354 if (netmask) ( 
355 rt maskedcopy(dst, ndst, netmask); 
356 ) else 
357 Bcopy(dst, ndst, dst-»sa len); 
358 rn - rnh-»rnh addaddr((caddr t) ndst, (caddr t) netmask, 
359 rnh, rt-»rt nodes); 
360 lf (n ss 0) 4 
361 if (rt-»rt. gwroute) 
362 rtfree(rt-»rt gwroute); 
363 Free(rt key(rt)); 
364 Free (rt); 
365 senderr (EEXIST) ; 
366 } 
367 ifa->ifa_refcnt++; 
368 rt-»rt ifa s ifa; 
369 rt-»rt ifp = ifa-»ifa.lfb; 
370 if (req -- RTM RESOLVE) 
371 rt-»rt rmx - (*ret nrt)-»rt rmx; /* copy metrics */ 
372 if (ifa-»ifa, rtrequest) 
373 ifa-»ifa rtrequest(req, rt, SA(ret nrt ? *ret nrt : 0)); 
374 Lt (ret nrt) 1 
175 *ret npt e rt; 
376 rt-»rt refcnt-4-*; 
377 ) 
378 break; 
379 ) 
380 bad: 
381 splx(s); 
382 return (error); 
383 ) 
route.c 
图 19-9 rtrequesttKZ&: RTM ADD 命 令 
8. 复制 目的 地 址 


353-357 把 目的 地 址 (路 由 表 表 项 ast) 复 制 到 zxn_key 所 指向 的 存储 器 中 。 如 果 提 供 了 网 络 
掩 码 ， 则 rt_maskedcopy 对 dst 和 netmask 进 行 远 辑 与 运算 ,得 到 新 的 表 项 。 否 则 ，dst 
就 会 被 复制 成 新 的 表 项 。 对 dst 和 netmask 进 行 逻 辑 与 运算 是 为 了 确保 表 中 的 表 项 已 经 和 它 
的 掩 码 进行 了 与 运算 。 这 样 ， 查 找 表 项 与 表 中 的 表 项 进行 比较 时 ， 只 需要 另外 对 查找 表 项 和 
掩 码 进 行 逻辑 与 运算 就 可 以 了 。 例 如 ， 下 面 的 这 个 命令 同 以 太 网 接口 1e0 添 加 了 男 一 个 IP 地 
址 (一 个 别名 )， 其 子 网 为 12 而 不 是 13。 
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bsdi $ ifconfig le0 inet 140.252.12.63 netmask Oxffffffe0 alias 


该 例子 中 存在 的 一 个 问题 和 证， 我们 所 指定 的 全 1 的 主机 号 是 错误 的 。 不 过 ， 该 表 项 存 人 路 
由 表 后 ， 我 们 用 net stat 验 证 可 知 该 地 址 已 经 和 掩 码 进行 过 逻辑 与 运算 了 。 

Destination Gateway Flags Refs Use Interface 

140.252.12.32 1ink#1 Uc 0 0 leO 


9. 往 选 路 树 中 添加 表 项 
358-366 rnh addaddr 了 函数 (图 18-17 中 的 rn _ addroute) 各 选 路 树 中 添加 这 个 rtentry 
结构 ， 其 中 附带 了 它 的 目的 地 址 和 掩 码 。 如 果 有 差错 产生 ， 则 释放 该 结构 ， 并 返回 
EEXIST( 即 ， 该 表 项 已 经 存在 于 路 由 表 中 了 )。 

10. 保存 接口 指针 
367-369 递增 ifaddqr 结 构 的 引用 计数 ， 并 保存 ifaddqr 和 ifnet 结 构 的 指针 。 

11. 为 新 克隆 的 路 由 复制 度量 
370-371 如 果 命 令 是 RTM_RESOLVE( 不 是 RTM_ADD)， 则 把 被 克隆 的 表 项 中 的 整个 度量 结 
构 复 制 到 新 的 表 项 里 。 如 果 命 令 是 RTM_ADD， 则 调用 者 可 在 函数 返回 后 设置 该 度量 值 。 

12. 调用 接口 请 求 函 数 
372-373 如果 为 该 表 项 定义 了 ifa_rtrequest 函 数 ， 则 调用 该 函数 。 对 于 RTM_ADD 和 
RTM_RESOLVE 命 令 ，ARP 都 要 用 该 国 数 来 完成 一 些 额 外 的 处 理 。 

13. 返回 指针 并 递增 引用 计数 
374-378 如果 调 用 者 需要 该 新 结构 的 指针 ， 则 通过 ret_nrt 返 回访 指针， 并 将 引用 计数 值 
从 0 递增 到 1。 


举例 : 克隆 的 带 网 络 掩 码 的 路 由 


仅 当 rtrequest 的 RTM RESOLVE 命 令 创 建 克 隆 路 由 时 ， 才 使 用 rt genmask 的 值 。 如 
果 rt_genmask 指 针 非 空 ， 则 它 指向 的 插口 地 址 结构 就 成 了 新 创建 路 由 的 网 络 掩 码 。 在 我 们 
的 路 由 表 中 ， 即 图 18-2， 殉 隆 的 路 由 是 针对 本 地 以 太 网 和 多 播 地 址 的 。 下 面 的 例子 引 目 
[Sklower 1991] ， 它 提供 了 克隆 路 由 的 不 同 用 法 。 另 外 一 个 例子 见习 题 19 .2。 

考虑 一 个 B 类 网 络 ， 如 128.1， 它 在 点 到 点 链 路 之 外 。 子 网 掩 码 是 0xffffff00， 其 中 含 8 
比特 的 子 网 号 和 8 比特 的 主机 号 。 我 们 要 为 所 有 可 能 的 254 个 子 网 提供 路 由 表 项 ， 这 些 表 项 的 
网 关 是 与 本 机 直接 相连 的 路 由 器 ， 该 路 由 器 知道 如 何 到 达 与 128 .1 网 络 相连 的 链 路 。 

假设 该 网 关 不 是 我 们 的 默认 路 由 如 ， 则 最 人 简单 的 方法 就 是 创建 单个 表 项 ， 该 表 项 以 
128 .1.0.0 为 目的 、 以 0xffff0000 为 掩 码 。 可 是 ， 假 设 128.1 网 络 的 拓扑 使 所 有 可 能 的 254 
个 子 网 中 的 每 一 个 都 有 不 同 的 运营 特性 : RTT、MTU 和 时 延 等 。 那 么 如 果 每 个 子 网 都 有 单独 
的 路 由 表 项 ， 我 们 就 能 够 看 到 ， 无 论 何 时 连接 断 开 后 ，TCP 都 会 刷新 该 路 由 表 项 的 统计 值 ， 
如 路 由 的 RTT、RTT 变 量 等 (图 27-3)。 尽 管 我 们 可 以 用 route 命 令 手 工地 为 254 个 子 网 中 的 每 
一 个 子 网 都 添加 路 由 表 项 ， 但 更 好 的 方法 是 采用 克隆 机 制 。 

由 系统 管理 员 先 创建 一 个 以 128.1.0.0 为 目的 地 ， 以 0xffff0000 为 网 络 掩 码 的 表 项 。 再 
设置 其 RTF CLONING 标 志 ， 并 设置 genmask 为 0xffffff00( 与 网 络 掩 码 不 同 )。 这 时 ， 如 
果 在 路 由 表 中 查找 128.1.2.3， 而 路 由 表 中 没有 子 网 128.1.2 的 表 项 ， 那 么 具有 掩 码 
0xffff0000 的 网 络 128.1 的 表 项 为 最 佳 匹 配 。 因 为 该 表 项 设 有 RTF_CLONING 标 志 ， 所 以 要 
创建 一 个 新 的 表 项 ， 新 表 项 以 128.1.2 为 目的 地 ， 以 0xffffff00(genmask 的 值 ) 为 网 络 掩 码 。 
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这 样 ， 下 一 次 引用 该 子 网 内 的 主机 时 ， 如 128.1.2.88， 最 佳 匹配 就 是 新 创建 的 表 项 。 


19.5 rt setgateň ži 


选 路 树 中 的 每 个 叶子 都 有 一 个 表 项 (rt_key， 也 就 是 在 rtentry 结 构 开头 的 
radix_node 结 构 的 rn_key 成 员 ) 和 一 个 相关 联 的 网 关 (rt_gateway)。 在 创建 路 由 表 项 时 ， 
它们 都 被 指定 为 插口 地 址 结构 。zt_setgate 为 这 两 个 结构 分 配 存储 右 ， 如 图 19-10 所 示 。 
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Sockaddr in Sockaddr dl 
图 19-10 路 由 表 表 项 和 相关 网 关 示 例 
这 个 例子 给 出 了 图 18-2 中 的 两 个 表 项 ， 它 们 的 表 项 分 别 是 127.0.0.1 和 140.252.13.33。 前 一 
个 的 网 关 成 员 指向 一 个 Internet 插 口 地 址 结构 ， 后 一 个 的 网 关 成 员 指 向 一 个 含 以 太 网 地 址 的 数 
据 链 路 插口 地 址 。 前 一 个 是 在 系统 初始 化 时 ， 由 route 系 统 将 其 添加 到 路 由 表 中 的 ， 后 一 个 


是 由 ARP 创 建 的 。 | 
在 图 19-11 中 ， 我 们 有 意识 地 把 两 个 由 zt_key 指 向 的 结构 紧 挨 着 画 在 一 起 ， 因 为 它们 古 


由 zt_setgate 一 起 分 配 的 。 
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route.c 
384 int 
385 rt setgate(rt0, dst, gate) 
386 struct rtentry *rt0; 
387 struct sockaddr *dst, *gate; 
388 ( 
389 caddr t new, old; 
390 int dlen - ROUNDUP(dst-»sa len), glen - ROUNDUP(gate-»sa len); 
391 Struct rtentry *rt = rti; 
392 if (rt-»rt gateway == 0 || glen > ROUNDUP(rt-»rt gateway-»sa len)) ( 
393 old = (caddr.t) rt.key(rt); 
394 R Malloc(new, caddr t, dlen + glen); 
395 if (new == O0) 
396 return 1; 
397 rt-»rt nodes-»rn key - new; 
398 ) else ( 
399 new - rt-»rt nodes-»rn key; 
400 old « D; 
401 ) 
402 Bcopy(gate, (rt-»rt gateway = (struct sockaddr *) (new + dlen)), glen); 
403 it (ora); d 
404 Bcopy (dst, new, dlen); 
405 Free (old); 
406 } : 
407 if (rt->rt_gwroute) { 
408 rt = rt->rt_gwroute; 
409 RTFREE (rt); 
410 ft > rtp: 
411 rt->rt_gwroute = 0; 
412 } 
413 if (rt->rt_flags & RTF_GATEWAY) { 
414 rt->rt_gwroute = rtallocl(gate, 1); 
415 } 
416 return 0; 
&17 ) 

route.c 


图 19-11 rt setgatetr&2& 


1. 依据 插口 地 址 结构 设置 长 度 
384-391 dlen 是 目的 插口 地 址 结构 的 长 度 ，glen 是 网 关 插 口 地 址 结构 的 长 度 。ROUNDUP 
宏 把 数值 上 舍 入 成 4 的 倍数 个 字 市 ， 但 大 多 数 插 口 地 址 结构 的 长 度 本 身 就 是 4 的 倍数 。 

2. 4r Ro fr hit on 
392-401 如 果 还 没有 给 该 路 由 表 表 项 和 网 关 分 配 存 储 器 ， 或 gl1en 大 于 当前 rt_gateway 所 
指向 的 结构 的 长 度 ， 则 分 配 一 片 新 的 存储 器 ， 并 使 rn_key 指 向 新 分 配 的 存储 器 。 

3. 使 用 分 配给 表 项 和 网 关 的 存储 器 
398-401 由 于 已 经 给 表 项 和 网 关 分 配 了 一 片 足够 大 小 的 存储 器 ， 因 此 ， 直 接 将 new 指 同 这 
个 已 经 存在 的 存储 器 。 

4. 复制 新 网 关 
402 复制 新 的 网 关 结 构 ， 并 且 设 置 rt_gateway，, 使 其 指向 插口 地 址 结构 。 

5. 从 原 有 的 存储 器 中 将 表 项 复制 到 新 存储 口中 
403-406 如 果 分 配 了 新 的 存储 器 ， 则 在 网 关 字段 被 复制 前 ， 先 复制 路 由 表 表 项 dst ， 并 释 
放 原 有 的 存储 器 片 。 
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6. 释放 网 关 路 由 指针 
407-412 如 果 该 路 由 表 项 含有 非 空 的 rt_gwroute 指 针 ， 则 用 RTFREE 释 放 该 指针 所 指 癌 
的 结构 ， 并 设置 rt_gwroute 为 空 。 

7. 查找 并 保存 新 的 网 关 路 由 指针 
413-415 如 果 路 由 表 项 是 一 个 非 直接 路 由 ， 则 ztal1locl 查 找 新 网 关 的 路 由 表 项 ， 并 将 它 
保存 在 rt _gwroute 中 。 如 果 非 直接 路 由 指定 的 网 关 无 效 ， 则 rt_setgate 并 不 返回 任何 差 


错 , 但 rt_gwroute 会 是 一 个 空 指针 。 


19.6 rtinitt?Z 


Internet 协 议 添加 或 删除 相关 接口 的 路 由 时 ， 对 rtinit 的 调用 有 四 个 。 

* 在 设置 点 到 点 接口 的 目的 地 址 时 ，in_control 调 用 rtinit 两 次 。 第 一 次 调用 指定 
RTM_DELETE 命 令 ， 以 删除 所 有 现存 的 到 该 目的 地 址 的 路 由 (图 6-21);， 第 二 次 调用 指定 
RTM_ADD 命 令 ， 以 添加 新 路 由 。 

*in ifinit 调 用 rtinit 为 广播 网 络 添加 一 条 网 络 路 由 或 为 点 到 点 链 路 (图 6-19) 添 加 一 条 主 
机 路 由 。 如 果 是 给 以 太 网 接口 添加 的 路 由 ， 则 in_ifinit 自 动 设置 其 RTF_CLONING 标 志 。 

。in ifscrub 调 用 rtinit， 以 删除 一 个 接口 现存 的 路 由 。 

图 19-12 给 出 了 rtinit 函 数 的 第 一 部 分 。cmd 参 数 只 能 是 RTM ADD 或 RTM DELETE, 


- route.c 
441 int 
442 rtinit(ifa, cmd, flags) 
443 struct ifaddr *ifa; 
444 int cmd, flags; 
445 ( 
446 struct rtentry *rt; 
447 struct sockaddr *dst; 
448 struct sockaddr *deldst; 
449 struct mbuf *m - 0; 
450 struct rtentry *nrt = 0; 
451 int error; 
452 dst = flags & RTF. HOST ? ifa-»ifa dstaddr : ifa-»ifa addr; 
453 if (cmd == RTM DELETE) { 
454 if ((flags & RTF. HOST) == 0 && ifa-»ifa netmask) { 
455 m = m get (M WAIT, MT SONAME); 
456 deldst - mtod(m, struct sockaddr *); 
457 rt maskedcopy(dst, deldst, ifa-»ifa netmask); 
458 dst = deldst; 
459 ) 
460 if (rt = rtalloci(dst, 0)) t 
461 rt-»rt refcnt--; 
462 if (rt-»rt.ifa != ifa) {f 
463 if (m) 
464 (void) m free(m); 
465 return (flags & RTF HOST ? EHOSTUNREACH 
466 : ENETUNREACH) ; 
467 } 
468 ) 
469 ) 
470 error = rtrequest(cmd, dst, ifa-»ifa addr, ifa-»ifa netmask, 
471 flags | ifa-»ifa flags, &nrt); 
472 if (m) 
473 (void) m free(m); 

route.c 


图 19-12 rt initi: 调用 rtrequest 处 理 命 令 
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1. 为 路 由 获取 目的 地 址 
452 ”如果 是 一 个 到 达 某 主机 的 路 由 ， 则 目的 地 址 是 点 到 点 链 路 的 另 一 端 。 否 则 ， 我 们 处 理 的 
就 是 一 个 网 络 路 由 ， 其 目的 地 址 是 接口 的 单 播 地 址 (经 ifa_netmask 掩 码 过 的 )。 

2. 用 网 络 掩 码 给 网 络 地 址 掩 码 
453-459 如 果 要 删除 路 由 ， 则 必须 在 路 由 表 中 查找 该 目的 地 址 ， 并 得 到 它 的 路 由 表 项 。 如 
果 要 删除 的 是 一 个 网 络 路 由 且 接 口 拥有 相关 联 的 网 络 掩 码 ， 则 分 配 一 个 mbuf， 用 
rt_maskedcopy 对 目的 地 址 和 调用 参数 中 的 掩 码 地 址 进行 逻辑 与 运算 ， 并 将 结果 复制 到 
mbuf 中 。 令 dst 指 向 mbuf 中 掩 码 过 的 复制 值 ， 它 就 是 下 一 步 要 查找 的 目的 地 址 。 

3. 查找 路 由 表 项 
460-469 rtallocl 在 路 由 表 中 查找 目的 地 址 ， 如 果 能 找到 ， 则 先 递 减 该 表 项 的 引用 计数 
(因为 rtallocl 递 增 了 该 引用 计数 )。 如 果 路 由 表 中 该 接口 的 1£addr 指 针 不 等 于 调用 者 的 参 
数 ， 则 返回 一 个 差错 。 

4. 处 理 请 求 
470-473 rt request 执 行 RKTM_ADD 或 RTM_DELETE 命 令 。 当 rt_request 返 回 时 ， 如 
果 之 前 分 配 了 mbuf， 则 释放 它 。 

图 19-13 给 出 了 rtinit 的 后 半 部 分 。 


route.c 
474 if (cmd == RTM DELETE && error == (0 && (rt = nrt)) ( 
475 rt newaddrmsg(cmd, ifa, error, nrt); 
476 if (rt-»rt refont «s 0) | 
477 rt-»rt refcnt-*-*; 
478 rtfree(rt); 
479 ) 
480 ) 
481 if (cmd ss RTM.ADD && error ss 0 && (rt e nrt)) ( 
482 rt-»rt refcnt--; 
483 Lf (rt-»rt ifà t= ifa) ( 
484 printf("rtinit: wrong ifa (%x) was ($x)Wn', ifa, 
485 rt-»rt ifa); 
486 if (rt-»rt ifa-»ifa rtrequest) 
487 rt-»rt ifa-»ifa rtrequest(RTM DELETE, rt, SA(0)); 
488 IFAFREE(rt-»rt ifa); 
489 rt-»rt ifa - ifa; 
490 rt-»rt lfp s ifa-»ifa.ifp; 
491 ifa-»ifa refcnt-«-; 
492 if (ifa-»ifa rtrequest) 
493 ifa-»ifa rtrequest(RTM ADD, rt, SA(0)); 
494 } 
495 rt newaddrmsg(cmd, ifa, error, nrt); 
496 ) 
497 return (error); 
498 ) 
route.c 


图 19-13 rtint: 后 半 部 分 


5. 删除 成 功 时 产生 一 个 选 路 消 妃 
474-480 如果 删 除了 一 个 路 由 ， 并 且 rtrequest 返 回 0 和 被 删除 的 rtentry 结 构 的 指针 
(nrt), 就 用 rt_newaddrmsg 产 生 一 个 选 路 插口 消息 。 如 果 引 用 计数 小 于 等 于 0， 则 递增 
该 引用 计数 ， 并 用 rtfree 释 放 该 路 由 。 
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6. 成 功 添加 
481-482 如 来 添加 了 一 个 路 由 ， 并 且 rtrequest 返 回 了 0 和 被 添加 的 rtentry 结 构 的 指针 
(nrt)， 就 递减 其 引用 计数 (因为 rtrequest 递 增 了 该 引用 计数 )。 

7. 不 正确 的 接口 
483-494 如果 新 路 由 表 项 中 接口 的 .faddr 指 针 不 等 于 调用 参数 ， 则 表明 有 差错 产生 。 利 
用 rtrequest， 通过 调用 ifa ifwithroute 来 测定 新 路 由 中 的 ifa 指 针 (rtzredquest 国 数 
如 图 19-9 所 示 )。 产 生 这 个 差错 后 ， 做 如 下 步骤 : 同 控 制 台 输出 一 条 出 钳 销 电 ， 如 有 定义 了 
ifa rtrequest 团 数 ， 就 以 RTM DELETE 为 参数 调用 它 ; 释放 ifaddr 结 构 ; 设置 rt ifa 
指针 为 调用 者 指定 的 值 ， 递 增 接 口 的 引用 计数 ， 如 果 定 义 了 ifa_rtrequest 畏 数 ， 就 以 
RTM_ADD 为 参数 调用 它 。 

8. 产生 选 路 消息 
495 Hirt newaddrmsg 为 RTM ADD 命 令 产 生 一 个 选 路 插口 消息 。 


19.7 rtredirect 了 函数 


当 收 到 一 个 ICMP 重 定 问 后 ，ijcmp input 调 用 rtredirect 及 pfctlinput( 图 11-27)。 
后 一 个 函数 又 调用 udp_ctlinput 和 tcp_ctlinput， 这 两 个 尔 数 遍历 所 有 的 UDP 和 TCP 协 
议 控 制 块 PCB)。 如 果 PCB 连 接 到 一 个 外 部 地 址 ， 而 到 该 外 部 地 址 的 方 癌 已 经 被 改变 ， 并 且 该 
PCB 持 有 到 那个 外 部 地 址 的 路 由 ， 则 调用 rtfree 释 放 该 路 由 。 下 一 次 使 用 这 些 控制 块 发 送 到 
该 外 部 地 址 的 IP 数 据 报时 ， 就 会 调用 rtalloc， 并 在 路 由 表 中 查找 该 目的 地 址 ， 很 可 能 会 找 
到 一 条 新 (改变 过 方向 的 ) 路 由 。 

rtzredirect 国 数 的 作用 是 验证 重 定向 中 的 信息 ， 并 立即 更 新 路 由 表 ， 产 生 选 路 插口 销 
息 。 图 19-14 给 出 了 rtzredirect 国 数 的 前 半 部 分 。 
147-157 图 数 的 参数 包括 : dst ， 导 致 重 定向 的 数据 报 的 目的 IP 地 址 (图 8-18 中 的 HD)， 
gateway， 路 由 絮 的 IP 地 址 ， 用 作 该 目的 的 新 网 关 字 段 (图 8-18 中 的 R2); netmask, FH 
针 ; flags， 设 置 了 RTF GATEWAY 标 志和 RTF HOST 标 志 ; src, 发送 重 定向 的 路 由 器 的 IP 
地 址 (图 8-18 中 的 R1);， rtp， 空 指针 。 需 要 指出 的 是 ，icmp_input 调 用 本 国 数 时 ， 参 数 
netmask 和 rtp 是 空 指针 ， 但 是 其 他 协议 调用 本 函数 时 ， 这 两 个 参数 未 必 为 空 指针 。 

1. 新 路 由 必须 直接 相连 
158-162 新 的 网 关 必 须 是 直接 相连 的 ， 人 否则 该 重 定 癌 无 效 。 

2. 查找 目的 地 址 的 路 由 表 项 并 验证 重 定 问 
163-177 调用 rtalloc1 在 路 由 表 中 查找 到 目的 地 址 的 路 由 。 验 证 重 定 同时 ， 下 列 条 件 必 
须 为 真 ， 否 则 该 重 定 同 无 效 ， 并 且 国 数 返回 一 个 差错 。 要 注意 的 一 点 是 ，icmp_input 会 忽 
略 从 rtredirect 返 回 的 任何 差错 。ICMP 也 会 忽略 它 ， 即 不 会 为 一 个 无 效 的 重 定 同 而 产生 一 
个 差错 信息 。 

。 必须 未 设置 RTF DONE 标 志 ; 

“rtalloc 必 须 已 找到 一 个 到 dst 的 路 由 表 项 ， 

“发 送 重 定 同 的 路 由 絮 的 地 址 (src) 必 须 等 于 当前 为 目的 地 址 设置 的 rt_gateway; 

。 新 网 关 的 接口 (由 ifa_ifwithnet 返 回 的 ifa 结 构 ) 必 须 等 于 当前 为 目的 地 址 设置 的 接 

口 (rt_ifa)， 也 就 是 说 ， 新 网 关 必 须 和 当前 网 关 在 同一 个 网 络 上 ; 并 且 
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* 新 网 关 不 能 把 到 这 个 主机 的 路 由 改变 为 到 它 自 己 ， 也 就 是 说 ， 不 能 存在 与 gsateway 相 
等 的 带 有 单 播 地 址 或 广播 地 址 的 连接 着 的 接口 。 


route.c 
147 int 
148 rtredirect(dst, gateway, netmask, flags, src, rtp) 
149 struct sockaddr *dst, *gateway, *netmask, *src; 
150 int flags; 
151 struct rtentry **rtp; 
152. í 
153 struct rtentry *rt; 
154 int error z 0; 
155 short  *stat = 0; 
156 struct rt addrinfo info; 
157 struct ifaddr *ifa; 
158 /* verify the gateway is directly reachable */ 
159 if ((ifa = ifa ifwithnet(gateway)) == 0) ( 
160 error - ENETUNREACH; 
161 goto out; 
162 ) 
163 rt = rtàllocil(dst, 0); 
164 p 
165 * If the redirect isn't from our current router for this dst, 
166 * it's either old or wrong. If it redirects us to ourselves, 
167 * we have a routing loop, perhaps as a result of an interface 
168 * going down recently. 
169 "Jy 
170 $define equal(al, a2) (bcmp((caddr. t) (a1), (caddr. t) (a2), (al)-»sa len) == 0) 
171 if (!(flags & RTF. DONE) && rt && l 
172 ( !'equal (src, rt->rt_gateway) || rt-»rt ifa !- ifa)) 
LES error = EINVAL; 
174 else if (ifa ifwithaddr(gateway)) 
175 error - EHOSTUNREACH; 
176 if (error) 
177 goto done; 
178 A 
179 * Create a new entry if we just got back a wildcard entry 
180 * or if the lookup failed. This is necessary for hosts 
181 * which use routing redirects generated by smart gateways 
182 * to dynamically build the routing tables. 
183 "I 
184 if ((rt == 0) || (rt mask(rt) && rt mask(rt)-»sa len < 2)) 
185 goto create; 
route.c 


图 19-14 rtredirect 国 数 : 验证 收 到 的 重 定 向 


3. 必须 创建 一 个 新 路 由 
178-185 如 末 到 达 目 的 地 址 的 路 由 没有 找到 ， 或 找到 的 路 由 表 项 是 默认 路 由 ， 则 为 该 目的 
地 址 创建 一 个 新 的 路 由 。 如 程序 注释 所 述 ， 对 于 可 访问 多 个 路 由 器 的 主机 来 说 ， 当 默认 路 由 
姑 出 错时 ， 它 可 以 利用 这 种 机 制 来 获悉 正确 的 路 由 器 。 判 断 是 否 为 默认 路 由 的 测试 方法 是 查 
看 该 路 由 表 项 是 否 具有 相关 的 掩 码 以 及 掩 码 的 长 度 字段 是 否 小 于 2， 因 为 默认 路 由 的 掩 码 是 
rn zeros( 图 18-35)。 

图 19-15 给 出 了 rtredirect 了 函数 的 后 半 部 分 。 

4. 创建 新 的 主机 路 由 
186-195 如 来 到 达 目 的 地 址 的 当前 路 由 是 一 个 网 络 路 由 ， 并 且 重 定向 是 主机 重 定向 而 不 是 
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网 络 重 定向 ， 那 么 就 为 该 目的 地 址 建立 一 个 主机 路 由 ， 而 不 必 去 管 现存 的 网 络 路 由 。 我 们 要 
提示 的 是 ，f1ags 参 数 总 是 指明 RTF_HOST 标 志 ， 因 为 Net/3 ICMP 把 所 有 收 到 的 重 定 四 都 看 


jk XE BLUR XE IRI 
route.c 
186 £* 
187 * Don't listen to the redirect if it's 
188 * for a route to an interface. 
189 *y 
190 if (rt-»rt flags & RTF GATEWAY) ( 
191 if (((rt-»rt flags & RTF HOST) -- 0) && (flags & RTF HOST)) ( 
192 p" 
193 * Changing from route to net -» route to host. 
194 * Create new route, rather than smashing route to net. 
195 i 
196 create: à 
197 flags |= RTF GATEWAY | RTF. DYNAMIC; 
198 error - rtrequest((int) RTM ADD, dst, gateway, 
199 netmask, flags, 
200 (struct rtentry **) 0); 
201 stat = &rtstat.rts dynamic; 
202 ) else ( 
203 13 
204 * Smash the current notion of the gateway to 
205 * this destination. Should check about netmask!!! 
206 "2 
207 rt-»rt flags |= RTF. MODIFIED; 
208 flags |= RTF MODIFIED; 
209 stat - &rtstat.rts newgateway; 
210 rt setgate(rt, rt key(rt), gateway); 
211 ) 
212 ) else 
213 error - EHOSTUNREACH; 
214 done: 
215 Ir ue (f 
216 if (rtp && l!error) 
ZEF "rUbD = EU? 
218 else 
219 rtfree(rt); 
220 } 
221 out: 
222 if (error) 
223 rtstat.rts badredirect-4-*; 
224 else if (stat !- NULL) 
225 (*stat)++; 
226 bzero((caddr t) & info, sizeof(info)); 
227 info.rti info[RTAX DST] - dst; 
228 info.rti. info[RTAX GATEWAY] = gateway; 
229 info.rti info[RTAX NETMASK] - netmask; 
230 info.rti info[RTAX AUTHOR] = src; 
231 rt missmsg(RTM REDIRECT, &info, flags, error); 
2324 ) 
route.c 
图 19-1$ rtrequestrK7K: 后 半 部 分 
5. 创建 路 由 


196-201 rtrequest 创 建 一 个 新 路 由 ， 并 将 标志 RTF GATEWAY 和 RTF DYNAMIC 置 位 。 
参数 netmask 是 一 个 空 指 针 ， 这 是 因为 新 路 由 是 一 个 主机 路 由 ， 它 的 掩 码 是 隐 含 的 全 1 比特 。 
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stat 指 疝 一 个 计数 器 ， 它 在 后 面 的 程序 里 递增 。 

6. 改变 现存 的 主机 路 由 
202-211 当 到 达 目 的 地 址 的 当前 路 由 已 经 是 一 个 主机 路 由 时 ， 才 执行 这 段 代 码 。 此 时 ， 不 需 
要 创建 新 的 表 项 ， 但 需要 修改 现存 的 表 项 : 设置 RTF_MODIFIED 标 志 ， 并 调用 rt_setgate 来 
修改 路 由 表 项 的 rt_gateway 字 7 段 ， 使 其 指向 新 的 网 关 地 址 。 

7. 如 果 目 的 地 址 直接 相连 ， 则 忽略 
212-213 如 果 到 达 目 的 地 址 的 当前 路 由 是 一 个 直接 路 由 (没有 设置 RTF_GATEWAY 标 志 )， 那 
么 该 重 定向 针对 的 是 一 个 已 直接 连接 的 目的 地 址 。 此 时 ， 函 数 返 回 EHOSTUNREACH。 

8. 返回 指针 并 递增 统计 值 
214-225 如果 找 到 了 路 由 表 项 ， 那 么 该 表 项 被 返回 (如 果 rtp 非 空 且 没有 出 错 ) 或 者 用 
rtfree 释 放 它 。 相 关 的 统计 值 被 递增 。 

9. 产生 选 路 消息 
226-232 rt addrinfo 结 构 清 零 ， 并 由 rt missmsg 产 生 一 个 选 路 插口 消息 。 
raw_input 把 该 消息 发 送 到 所 有 对 重 定 癌 感 兴趣 的 进程 。 


19.8 选 路 消息 的 结构 


选 路 消息 由 一 个 定 长 的 首部 和 至 多 8 个 插口 地 址 结构 组 成 。 该 定 长 首部 是 下 列 三 种 结构 中 
IT. 

*rt msghdr 

e if msghdr 

e ifa_msghdr 

图 18-11 给 出 了 产生 不 同 消息 的 函数 的 概观 图 ， 图 18-9 给 出 了 每 种 消息 类 型 所 使 用 的 结构 。 
选 路 消息 三 种 首部 结构 的 前 三 个 成 员 的 数据 类 型 及 其 含义 是 相同 的 ， 分别 为 : 消息 的 长 度 、 
版 本 和 类 型 。 这 样 ， 销 息 接 受 者 就 可 以 对 消息 进行 解码 了 。 而 且 ， 每 种 结构 都 各 有 一 个 成 员 
来 编码 首部 之 后 8 个 可 能 的 插口 地 址 结构 : rtm addrs, ifm addrs 和 ifam addrs 成 员 ， 
它们 都 是 一 个 比特 掩 码 。 

图 19-16 给 出 了 最 常用 的 结构 ， 即 rt msghdr, RTM IFINFO 消 息 使 用 了 图 19-17 中 的 
if msghdr 结 构 。RTM NEWADDR 和 RTM DELADDR 消 息 使 用 图 19-18 中 的 ijfa_msghdar 结 构 。 


route.h 
139 struct rt msghdr { 
140 u short rtm msglen; /* to skip over non-understood messages */ 
141 u char rtm version; /* future binary compatibility */ 
142 u char rtm type; /* message type */ 
143 u short rtm index; /* index for associated ifp */ 
144 int rtm flags; /* flags, incl. kern & message, e.g. DONE */ 
145 int rtm addrs; /* bitmask identifying sockaddrs in msg */ 
146 pid t rtm pid; /* identify sender */ 
147 int rtm seq; /* for sender to identify action */ 
148 int rtm errno; /* why failed */ 
149 int rtm use; /* from rtentry */ 
150 u long rtm inits; /* which metrics we are initializing */ 
151 struct rt metrics rtm rmx;  /* metrics themselves */ 
152 l 
route.h 


”图 19-16 rt msghdr 结 构 


235 struct if msghdr ( 


236 u short ifm msglen; 
237 u char ifm version; 
238 u char ifm type; 
239 int ifm addrs; 
240 int ifm flags; 
241 u short ifm index; 
242 struct if data ifm data; 
243 ); 
图 19-17 


248 struct ifa msghdr ( 


249 u short 
250 u char 
251 u char 
252 int 

253 int 

254 u short 
255 int 

256 ); 


RTA DST 
RTA GATEWAY 
RTA NETMASK 
RTA GENMASK 
RTA IFP 

RTA IFA 
RTA AUTHOR 
RTA BRD 


地 址 。 


ifam msglen; 
ifam version; 
ifam type; 


ifam addrs; 
ifam flags; 
ifam index; 
ifam metric; 


/* 
/* 
/* 


/* 
/* 
/* 
/* 
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if.h 


to skip over non-understood messages */ 
future binary compatability */ 


message type */ 


like rtm addrs */ 


value of if flags */ 
index for associated ifp */ 
statistics and other data about if */ 


if msghdr 结 构 


/* 
/* 
/* 


/* 
/* 
/* 
/* 


if.h 


if.h 


to skip over non-understood messages */ 
future binary compatability */ 


message type */ 


like rtm addrs */ 


value of ifa flags */ 
index for associated ifp */ 
value of ifa metric */ 


图 19-18 ifa msghdr 结 构 


注意 ， 这 三 种 不 同 结构 的 前 三 个 成 员 具 有 相同 的 数据 结构 和 含义 。 
三 个 变量 rtm addrs、ifm addrs 和 ifam addrs 都 是 比特 掩 码 ， 它 们 定义 了 首部 之 
后 的 插口 地 址 结构 。 图 19-19 给 出 了 比特 掩 码 用 到 的 一 些 常量 。 


RTAX DST 
RTAX GATEWAY 
RTAX NETMASK 
RTAX GENMASK 
RTAX IFP 
RTAX IFA 
RTAX AUTHOR 
RTAX BRD 


gate 
netmask 


genmask 


ifpaddr 
ifaaddr 


brdaddr 





if.h 


目的 插口 地 址 结构 

网 关 插 口 地 址 结构 

网 络 掩 码 插口 地 址 结构 

克隆 掩 码 插口 地 址 结构 

接口 名 称 插口 地 址 结构 
接口 地 址 插口 地 址 结构 

重 定向 产生 者 的 插口 地 址 结构 
广播 或 点 到 点 的 目的 地 址 
rti-into[] 数组 的 元 素 个 数 


图 19-19 用 来 引用 zti_info 数 组 成 员 的 常量 


比特 掩 码 的 值 可 以 用 常数 1 左 移 数组 下 标 指定 的 位 数 而 得 到 。 例 如 ，0x20(RTA_IFA) 是 1 
左 移 五 位 (RTAX_IFA)。 我 们 会 在 代码 中 看 到 这 个 过 程 。 
插口 地 址 结构 总 是 按照 数组 下 标 递 增 的 次 序 ， 一 个 接 一 个 地 出 现 的 。 例 如 ， 如 果 掩 码 是 
0x87， 则 第 一 个 插口 地 址 结构 的 内 容 为 目的 地 址 ， 接 着 是 网 关 地 址 ， 网 络 掩 码 ， 最 后 是 广播 


内 核 用 图 19-19 中 的 数组 下 标 来 引用 rt_addrinfo 结 构 ， 如 图 19-20 所 示 。 该 结构 具有 与 
我 们 所 述 相 同 的 比特 掩 码 ， 以 表示 哪些 地 址 存在 。 它 的 另 一 个 成 员 指 向 那些 插口 地 址 结构 。 
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route.h 
199 struct rt addrinfo ( 
200 int rti addrs; /* bitmask, same as rtm addrs */ 
201 struct sockaddr *rti. info[RTAX MAX]; 
202 ); 
route.h 


图 19-20 rt _addrinfo 结 构 : 表示 哪些 地 址 存在 的 掩 码 和 指 同 这 些 地 址 的 指针 


例如 ， 如 果 rti addrs 上 成 员 中 设置 TRTA GATEWAY 上 比特 ,， 则 rti info 
[RTA GATEWAY] 成 员 就 是 含 网 关 地 址 的 插口 地 址 结构 的 指针 。 对 于 Internet 协 议 ， 该 插口 
地 址 结构 就 是 对 网关 的 IP 地 址 的 sockaddr_in 结 构 。 

图 19-19 中 的 第 五 栏 给 出 了 文件 rtsock .c 中 zti_info 数 组 成 员 相 应 的 名 称 。 它 们 的 定 
义 形式 如 下 : 

#define dst info.rti info[RTAX DST] 

在 本 章 的 很 多 源 文件 中 我 们 都 将 遇 到 这 些 名 称 。 元 素 RTAX_RAUTHOR 设 有 从 名 ， 因 为 进程 

\ 会 问 内 核 传 递 该 元 素 。 

我 们 已 经 有 两 次 遇 到 过 zt_addrinfo 结 构 : 在 函数 rtallocl( 图 19-2) 和 rtredirect 
中 (图 19-14)。 图 19-21 给 出 了 rtallocl 在 路 由 表 查 找 失 败 后 调用 rt_missmsg 时 创建 的 该 结 
构 的 格式 ,。 


rt addrinfo() 


rti info[RTAX DST] 
rti info[RTAX GATEWAY] 







0 sockaddr in() 


没有 找到 IP 地 址 












NOLL 


rti info[RTAX BRD] 


图 19-21 rtallocl 传 递 给 rt _missmsg 的 rt _ addrinfo 结 构 


所 有 未 使 用 的 指针 都 是 空 指针 ， 因 为 该 结构 在 使 用 前 被 设置 成 0。 还 要 指出 的 是 ， 
rti_addrs 成 员 没 有 被 初始 化 成 相应 的 比特 掩 码 ， 因 为 在 内 核 使 用 该 结构 时 ,rti_info 数 
组 中 的 指针 为 空 就 代表 不 存在 该 播 口 地 址 结构 。 仅 在 进程 和 内 核 之 间 传 递 的 消息 里 该 掩 码 才 
是 必 不 可 少 的 。 

图 19-22 给 出 了 rtredirect 调 用 rt _ missmsg 时 创建 的 该 结构 的 格式 。 


rt addrinfo() 


o sockaddr ini) 
NULL sockaddr ini) 

xti info[RTAX GENMASK]]NULL 
Eti info[RTAX IFP] — |NULL 

Ftiinfo[RTAX IFA] — |NULL sockaddr ini) 

发 出 路 由 改变 的 路 由 器 的 下 地 十 

zti infoIRTAx BRD] | NULL 


图 19-22 rtredirect 传 递 给 rt missmsg 的 rt addrinfo 结 构 
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下 一 市 中 将 介绍 该 结构 是 如 何 被 放置 在 发 送 到 其 他 进程 的 消息 里 的 。 

图 19-23 给 出 了 route_cb 结 构 ， 我 们 会 在 下 一 节 中 遇 到 。 该 结构 由 四 个 计数 器 组 成 ， 前 
三 个 分 别针 对 卫 、XNS 和 OSI 协议 ， 节 后 一 个 为 “任意 ”计数 器 。 每 个 计数 器 分 别 记 录 相 应 的 
域 中 当前 存在 的 选 路 插口 的 数目 。 
203-208 内 核 跟 踩 选 路 插口 监听 器 的 数目 。 这 样 ， 当 不 存在 等 待 消息 的 进程 时 ， 内 核 就 可 
以 避免 创建 选 路 消息 以 及 调用 raw_input 发 送 该 消息 。 


route.h 
203 struct route cb { 
204 int ip count; /* IP */ 
205 int ns, count ; /* XNS */ 
206 int iso count; /* ISO */ 
207 int any. count; /* sum of above three counters */ 
nii route.h 


图 19-23 route cb 结构 : 选 路 播 口 监听 器 的 计数 器 


19.9 rt missmsg 函 数 


如 图 19-24 所 示 ，rt_missmsg 国 数 使 用 了 图 19-21 和 图 19-22 中 的 结构 ， 并 调用 rt_msgl 
在 mbuf 链 中 为 进程 创建 了 相应 的 变 长 消息 ， 之 后 调用 raw_input 将 该 mbuf 链 传递 给 所 有 相 
关 的 选 路 插口 。 


rtsock.c 
516 void 
517 rt missmsg(type, rtinfo, flags, error) 
518 int type, flags, error; 
519 struct rt, addrinfo *rtinfo; 
520 ( 
521 struct rt msghdr *rtm; 
524 struct mbuf *m; 
523 struct sockaddr *sa = rtinfo-»rti, info[RTAX, DST] ; 
524 if (route cb.any count == 0) 
525 return; 
526 m - rt, msgl(type, rtinfo); 
527 if (H =s ) 
528 return; 
529 rtm = mtod(m, struct rt, msghdr *); 
530 rtm-»rtm flags - RTF DONE | flags; 
531 rtm-»rtm errno = error; 
534 rtm-»rtm addrs - rtinfo-»rti addrs; 
533 route proto.sp protocol - sa ? sa-»sa family : O0; 
534 raw input(m, &route proto, &route src, &route dst); 
535 3 
rtsock.c 


19-24 rt missmsg 国 数 


516-525 如 采 疫 有 任何 选 路 播 口 监听 器 ， 则 函数 立即 退出 。 

1. 在 mbuf 链 中 创建 消息 
526-528 rt_msg1(19.12 市 ) 在 mbuf 链 中 创建 相应 的 消息 ， 并 返回 该 链 的 指针 。 利 用 图 19- 
22 中 的 rt_addrinfo 结 构 ， 图 19-25 给 出 了 所 得 到 的 mbuf 链 的 一 个 例子 。 这 些 信息 之 所 以 要 
放 在 一 个 mbuf 链 中 ， 是 因为 raw input 要 调用 sbappendaddr 把 该 mbuf 链 添加 到 插口 接收 
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缓存 的 尾部 。 
mbuf() 链 中 的 下 一 个 mbuf mbuf () 
NULL 
m nextpkt monextpkt  |NULL 
m len 24 
m flags 0 
m pkthdr.len 124 Sockaddr in() 
m pkthdr.rcvif|NULL (后 一 半 ，8 字 节 ) 
Sockaddr in() 
(167€ 45) 
rt msghdr(í() 
(76 字 市 ) 
sockaddr in() 
(16 字 节 ) 
sockaddr in() 
图 19-25 由 rt _msgl 创 建 的 对 应 于 图 19-22 的 mbuf 链 
2. 完成 消息 的 创建 





























529-532 成 员 rtm flags 和 rtm errno 被 设置 成 调用 者 传递 的 值 。 成 员 rtm_addrs 的 值 
是 由 rti_addrs 复 制 而 得 到 的 。 在 图 19-21 和 图 19-22 中 ， 我 们 给 出 的 rti_aqars 值 为 0， 
此 ，rt_msgl 依 据 rti_info 数 组 中 的 指针 是 否 为 空 ， 来 计算 并 保存 相应 的 比特 掩 码 。 

3. 设置 消息 的 协议 ， 调 用 raw_input 
533-534 raw_input 的 后 三 个 参数 指定 了 选 路 消息 的 协议 、 源 和 目的 。 这 三 个 结构 被 初始 


化 成 : 


struct sockaddr route dst 


struct sockaddr route src 


struct sockproto 


route proto 


( 2, PF ROUTE, }; 
- (2, PF ROUTE, ); 
- ( PF ROUTE ); 


内 核 不 会 修改 前 两 个 结构 。 第 三 个 结构 sockpzoto， 我 们 第 一 次 遇 到 。 图 19-26 给 出 了 


它 的 定义 。 


1280 struct sockproto 4 

129 u short sp family; 
130 u short sp protocol; 
131 Ji 


/* address family */ 
/* protocol */ 


图 19-26 sockproto 结 构 


socket.h 


socket.h 


该 结构 的 协议 族 成 员 一 直 保 持 了 它 的 初始 值 BF_ROUTE ， 但 其 协议 成 员 的 值 在 每 一 次 调 
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用 raw_input 时 都 要 进行 设置 。 当 进程 调用 socket 创 建 选 路 插口 时 ， 第 三 个 参数 定义 了 该 
进程 所 感 兴趣 的 协议 。raw_input 的 调用 者 再 把 route_proto 结 构 的 sp_protocol 成 员 
设置 成 选 路 消息 的 协议 。 在 rt_missmsg 这 种 情况 下 ， 该 成 员 被 设置 成 目的 插口 地 址 结构 的 
sa_fami1y( 如 果 调 用 者 指定 了 该 值 )， 在 图 19-21 和 图 19-22 中 ， 其 值 为 ARF_INET。 


19.10 rt iftmsg 国 数 


在 图 4-30 中 我 们 可 以 看 出 ，if_up 和 if_dowm 都 调用 了 图 19-27 中 的 rt_ifmsg。 在 接口 
连接 或 断 开 时 ， 该 函数 被 用 来 产生 一 个 选 路 插口 消息 。 


: rtsock.c 
540 void 
541 rt ifmsg(ifp) 
542 struct ifnet *ifp; 
543 ( 
544 struct if msghdr *ifm; 
545 struct mbuf *m; 
546 struct rt addrinfo info; 
547 if (route cb.any count -- 0) 
548 return; 
549 bzero((caddr t) & info, sizeof(info)); 
550 m = rt msgl(RTM IFINFO, &info); 
551 if (m == 0) 
552 return; 
553 ifm = mtod(m, struct if msghdr *); 
554 ifm-»ifm index = ifp-»if index; 
555 ifm-»ifm flags = ifp-»if flags; 
556 ifm-»ifm data = ifp-»if data; /* structure assignment */ 
557 ifm-»ifm addrs = 0; 
558 route proto.sp protocol - 0; 
559 raw input(m, &route proto, &route src, &route, dst); 
560 ) 

rtsock.c 


图 19-27 rt ifmsg 国 数 


547-548 如 果 没 有 选 路 插口 监听 右 ， 国 数 立 即 退出 。 

1. 在 mbuf 链 中 创建 消息 
549-552 rt addrinfo 结 构 被 设置 成 0。rt_msgl 在 一 个 mbuf 链 中 创建 相应 的 消息 。 需 要 
注意 的 是 ，rt_addrinfo 结 构 中 的 所 有 指针 都 为 空 ， 选 路 消息 仅 由 定 长 的 1]£_msghar 结 构 
组 成 ， 而 不 含 任何 地 址 。 

2. 完成 消息 的 创建 
553-557 把 接口 的 索引 、 标 志和 if _data 结 构 复制 到 mbuf 中 的 报 文 里 。 把 ifm addrslt 
特 掩 码 设置 成 0。 

3. 设置 消息 的 协议 ， 调 用 raw_input 
558-559 因为 该 消息 可 应 用 于 所 有 的 协议 ， 所 以 其 协议 被 设置 成 0。 并 且 该 消息 是 关于 某 接 
口 的 ， 而 不 是 针对 特定 的 目的 地 。raw_input 把 该 消息 传递 给 相应 的 监听 器 。 
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19.11 rt newaddrmsg A ži 


从 图 19-13 中 可 以 看 到 ， 在 接口 上 添加 或 从 中 删除 一 个 地 址 时 ，rtinit 要 以 RTM_ADD 或 
RTM _ DELETE 为 参数 调用 rt_newaddqrmsg。 图 19-28 给 出 了 rt_newaddqrmsg 国 数 的 前 半 部 分 。 


- rtsock.c 
569 void 
570 rt_newaddrmsg (cmd, ifa, error, rt) 
571 int cmd, error; 
572 struct ifaddr *ifa; 
573 struct rtentry *rt; 
574 ( 
575 struct rt addrinfo info; 
576 struct sockaddr *sa; 
577 int pass; 
578 struct mbuf *m; 
579 struct ifnet *ifp = ifa-»ifa ifp; 
580 if (route cb.any. count == 0) 
581 return; 
582 for (pass = 1; pass < 3; pass-«-«) ( 
583 bzero((caddr t) & info, sizeof(info)); 
584 if ((cmd == RTM ADD && pass == 1) |l 
585 (cmd == RTM DELETE && pass -- 2)) ( 
586 struct ifa msghdr *ifam; 
587 int ncmd - cmd -- RTM ADD ? RTM NEWADDR : RTM DELADDR; 
588 ifaaddr - sa - ifa-»ifa addr; 
589 ifpaddr = ifp-»if addrlist-»ifa addr; 
590 netmask - ifa-»ifa netmask; 
591 brdaddr - ifa-»ifa dstaddr; 
592 if ((m = rt msgl(ncmd, &info)) == NULL) 
593 continue; 
594 ifam - mtod(m, struct ifa msghdr *); 
595 ifam-»ifam index = ifp-»if index; 
596 ifam-»ifam metric = ifa-»ifa metric; 
597 ifam-»ifam flags = ifa-»ifa flags; 
598 ifam-»ifam addrs = info.rti addrs; 
599 ) 

rtsock.c 


图 19-28 zt_newaddqrmsg 国 数 的 前 半 部 分 : 创建 ifa_msghdr 


580-581 WRA HRNO EITA, KAOLE H o 

1. 产生 两 个 选 路 消息 
582 本 函数 要 产生 两 个 选 路 报 文 ， 一 个 用 于 提供 有 关 接 口 的 信息 ， 男 一 个 提供 有 关 地 址 的 信 
息 。 因 此 ，for 循 环 执行 两 次 ， 每 次 产生 一 个 消息 。 如 果 命 令 是 RTM_ADD， 则 第 一 个 消息 的 
类 型 是 RTM NEWADDR， 第 二 个 消息 的 类 型 是 RTM_ADD，; 如 果 命 令 是 RTM_DELETE， 则 第 一 
个 消息 的 类 型 是 RTM DELETE， 第 二 个 消息 的 类 型 是 RTM_DELADDR。RTM_ NEWADDRÍI 
RTM DELADDR 消 息 的 首部 为 fa_msghdr 结 构 ， 而 RTM_ADD 和 RTM_DELETE 消 息 的 首部 为 
rt msghdr 结 构 。 
583 rt addrinfo 结 构 被 设置 为 0。 

2. 产生 至 多 含 四 个 地 址 的 消息 
588-591 这 四 个 插口 地 址 结构 包含 的 是 有 关 被 添加 或 删除 的 接口 地 址 的 信息 ， 它 们 的 指针 
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存储 于 rti _ info 数组 中 。 其 中 iftaaddqr、ifpaddar、netmask 和 bzrdqaddzr 引 用 的 是 名 为 
info 的 rti info 数 组 中 的 成 员 ， 如 图 19-19 所 示 。rt_msgl 在 mbuf 链 中 创建 了 相应 的 消息 。 
注意 ，sa 也 设置 成 指向 ifa_addr 结 构 的 指针 ， 我 们 将 在 图 数 的 尾部 看 到 选 路 消息 的 协议 被 
设置 成 该 插口 地 址 结构 的 族 。 

把 ifa_msghdr 结 构 的 其 他 成 员 设 置 成 接口 的 索引 、 度 量 和 标志 。 其 比特 掩 码 由 
rt msgl 设 置 。 

图 19-29 给 出 了 rt_newaddrmsg 的 后 半 部 分 。 该 部 分 用 于 创建 rt_msghdar 消 甩 ， 该 消 
息 中 包含 了 有 关 被 添加 或 删除 的 路 由 表 项 的 信息 。 

3. 创建 消息 
600-609 rt mask, rt key 和 rt gateway 这 三 个 地 址 结构 的 指针 存放 在 rti infoX 
组 中 。sa 被 设置 成 目的 地 址 的 指针 ， 它 的 族 将 成 为 选 路 消息 的 协议 。rt_msgl 在 mbuf 链 中 创 
建 相应 的 消息 。 

设置 其 余 的 rt_msghdr 结 构成 员 。 其 中 ， 比 特 掩 码 由 rt_msgl 设 置 。 

4. 设置 消息 的 协议 ， 调 用 raw_input 
616-619 设置 消息 的 协议 ， 并 由 zaw_input 把 消息 发 送 给 相应 的 监听 器 。 函 数 在 完成 了 两 
次 傅 环 后 返回 。 


rtsocK.c 
600 if ((cmd == RTM ADD && pass == 2) |l 

601 (cmd == RTM DELETE && pass == 1)) ( 

602 struct rt msghdr *rtm; 

603 if (rt ss 0) 

604 continue; 

605 netmask = rt mask(rt); 

606 dst = Sä = Et. keyirt); 

607 gate - rt-»rt gateway; 

608 if ((m = rt msgl(cmd, &info)) == NULL) 

609 continue; 

610 rtm - mtod(m, struct rt msghdr *); 

611 rtm-»rtm index - ifp-»if index; 

612 rtm-»rtm flags |= rt-»rt flags; 

613 rtm-»rtm errno - error; 

614 rtm-»rtm addrs - info.rti addrs; 

615 ) 

616 route proto.sp protocol = sa ? sa-»sa family : 0; 
617 raw input(m, &route proto, &route src, &route dst); 
618 ) 

I rtsock.c 


图 19-29 zt_newaddrmsg 国 数 的 后 半 部 分 : 创建 rt_msghdqr 消 息 


19.12 rt msg1l 函 数 


前 三 节 的 函数 都 调用 rt _msg1 函 数 来 创建 一 个 相应 的 选 路 消息 。 图 19-25 还 给 出 了 一 个 
mbuf 链 ， 该 链 是 由 rt _msg1l 按 照 图 19-22 中 的 rt_msghdr 和 rt_addrinfo 结 构 创 建 的 。 
19-30 给 出 了 本 函数 的 代码 。 
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rtsock.c 
399 static struct mbuf * 
400 rt msgl(type, rtinfo) 
401 int type; 
402 struct rt, addrinfo *rtinfo; 
403 ( 
404 struct rt msghdr *rtm; 
405 struct mbuf *m; 
406 int i; 
407 struct sockaddr *sa; 
408 int len, dlen; 
409 m - m gethdr(M DONTWAIT, MT DATA); 
410 lf (m se 0) 
411 return (m); 
412 switch (type) ( 
413 case RTM DELADDR: 
414 case RTM, NEWADDR: 
415 len - sizeof(struct ifa msghdr); 
416 break; 
417 case RTM IFINFO: 
418 len = sizeof(struct if msghdr); 
419 break; 
420 default: 
421 len - sizeof(struct rt, msghdr); 
422 ) 
423 if (len » MHLEN) 
424 panic("rt msg1"); 
425 m-»m pkthdr.len - m-»m len - len; 
426 m-»m pkthdr.rcvif - 0; 
427 rtm - mtod(m, struct rt msghdr *); 
428 bzero((caddr t) rtm, len); 
429 for (i = 0; i « RTAX.MAX; i+) ( 
430 if ((sa = rtinfo-»rti. info[i]) == NULL) 
431 continue; 
432 rtinfo-»rti addrs l= (l «« i); 
433 dlen - ROUNDUP(sa-»sa, len); 
434 m copybackí(m, len, dlen, (caddr t) sa); 
435 len += dlen; 
436 ) 
437 if (m-»m pkthdr.len !- len) ( 
438 m freem(m); 
439 return (NULL); 
440 ) 
441 rtm-»rtm msglen - len; 
442 rtm-»rtm version - RTM VERSION; 
443 rtm-»rtm type - type; 
444 return (m); 
445 ) 
—- rtsock.c 


图 19-30 rt msg1 函 数 : 获取 并 初始 化 mbuf 


1. 得 到 mbuf 并 确定 消息 首部 的 长 度 
399-422 获得 一 个 含 分 组 首部 的 mbuf， 并 将 分 组 消息 定 长 部 分 的 长 度 存 和 人 len 中 。 图 18-9 
中 各 种 类 型 的 消息 里 ， 有 两 个 使 用 ifa_msghdr 结 构 ， 有 一 个 使 用 if_msghdar 结 构 ， 其 余 的 
九 个 使 用 rt_msghdr 结 构 。 
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2. 验证 结构 是 否 适合 mbuf 
423-424 定 长 结构 的 大 小 必须 完全 适合 分 组 首部 mbuf 的 数据 部 分 ， 因 为 该 mbuf 指 针 将 被 
mtod 转 换 成 一 个 结构 指针 ， 之 后 通过 指针 来 引用 该 结构 。 三 个 结构 中 最 大 的 为 |f_msghdr， 
其 长 度 为 84， 小 于 MHLEN(100)。 

3. 初始 化 mbuf 分 组 首部 并 使 结构 请 零 
425-428 初始 化 分 组 首部 的 两 个 字段 ， 并 将 mbuf 中 的 结构 设置 成 0。 

4. 将 插口 地 址 结构 复制 到 mbuf 链 中 
429-436 调用 者 传递 了 一 个 rt_addrinfo 结 构 的 指针 。 与 rti_info 中 所 有 非 空 指针 相 
对 应 的 插口 地 址 结构 都 被 n_copyback 复 制 到 mbuf 里 。 将 数值 1 左 移 下 标 RTX_xxx 对 应 的 位 
数 就 可 以 得 到 相应 的 RTA xxx 比 特 掩 码 ( 图 19-19)。 将 每 个 比特 掩 码 用 逻辑 或 添加 到 
rti addrs 成 员 中 去 ,调用 者 在 函数 返回 时 可 将 它 保存 为 相应 的 报 文 结构 成 员 。ROUNDUP 
宏 将 每 个 插口 地 址 结构 的 大 小 上 舍 入 成 下 一 个 4 的 倍数 个 字 市 。 
437-440 在 循环 结束 时 ， 如 果 mbuf 分 组 首部 的 长 度 不 等 于 len， 则 表明 函数 m_copyback 
没 能 获得 所 需 的 mbuf。 

5. 保存 长 度 、 版 本 和 类 型 
441-445 把 长 度 、 版 本 和 报 文 类 型 保存 到 报 文 结构 的 前 三 个 成 员 中 。 再 次 说 明 一 下 ， 因 为 
所 有 的 三 种 xxx_msghdr 结 构 都 以 相同 的 成 员 开 始 ， 所 以 尽管 代码 中 的 指针 rtm 是 一 个 
rt _msghdr 结 构 的 指针 ， 但 它 可 以 处 理 所 有 这 三 种 情况 。 


19.13 rt msg2 Až 


rt _msg1l 在 mbuf 链 中 创建 一 个 选 路 消息 ， 调 用 它 的 三 个 国 数 接着 又 调 月 raw_input， 
从 而 把 mbuf 结 构 附 加 到 一 个 或 多 个 插口 的 接收 缓存 中 去 。 与 rt_msg1 不 同 ，rt_msg2 在 存 
储 器 缓存 中 创建 选 路 消息 ， 而 不 是 在 mbuf 链 中 创建 。 并 且 rt_msg2 有 一 个 walkarg 结 构 的 
参数 ， 在 选 路 域 中 处 理 sysct1 系 统 调用 时 ， 有 两 个 国 数 使 用 该 参数 调用 了 rt_msg2。 以 下 
是 两 种 调用 rt_msg2 的 情况 : 

1) route output 调 用 它 处 理 RTM_GET 命 令 。 

2) sysctl dumpentryflsysctl iflist 调 用 它 处 理 sysct1l 系 统 调用 。 

在 给 出 rt_msg2 的 代码 之 前 , 图 19-31 给 出 了 在 第 2 种 情况 下 使 用 的 walkarg 结 构 的 定义 。 
我 们 在 遇 到 它 的 各 成 员 时 再 一 一 介绍 。 


rtsock.c 
41 struct walkarg ( 
42 int Ww Op; /* NET.RT xxx */ 
43 int w arg; /* RTF xxx for FLAGS, if index for IFLIST */ 
44 int w given; /* size of process' buffer */ 
45 int w needed; /* d$bytes actually needed (at end) */ 
46 int w tmemsize; /* size of buffer pointed to by w tmem */ 
47 caddr_t w_where; /* ptr to process’ buffer (maybe null) */ 
48 caddr_t w_tmem; /* ptr to our malloc'ed buffer */ 
49 } 
rtsock.c 


图 19-31 walkazrg 结 构 : 选 路 域内 sysct1 系 统 调 用 中 使 用 
图 19-32 给 出 了 rt _msg2 函 数 的 前 半 部 分 ， 它 与 rt_msg1l 的 前 半 部 分 类 似 。 
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— rtsock.c 
446 static int 
447 rt msg2(type, rtinfo, cp, w) 
448 int type; 
449 struct rt, addrinfo *rtinfo; 
450 caddr t cp; 
451 struct walkarg *w; 
452 ( 
453 int 1; 
454 int len, dlen, second time - 0; 
455 caddr t cp0; 
456 rtinfo-»rti addrs - 0; 
457 again: 
458 switch (type) ( 
459 case RTM, DELADDR: 
460 case RTM NEWADDR: 
461 len - sizeof(struct ifa msghdr); 
462 break; 
463 case RTM IFINFO: 
464 len = sizeof (struct if msghdr); 
465 break; 
466 default: 
467 len = sizeof(struct rt, msghdr); 
468 } 
469 if (cp0 = cp) 
470 cp += len; 
471 for (i = 0; i < RTAX MAX; i++) ( 
472 struct sockaddr *sa; 
473 if ((sa = rtinfo-»rti.info[i]) == O0) 
474 continue; 
475 rtinfo-»rti addrs |- (1 «« i); 
476 dlen - ROUNDUP(sa-»sa len); 
477 if (cp) 4 
478 bcopy((caddr t) sa, cp, (unsigned) dlen); 
479 Cp += dlen; 
480 ) 
481 len += dlen; 
482 ) 

rtsock.c 


图 19-32 rt_msg2 函 数 : 复制 插口 地 址 结构 


446-455 本 录 数 将 选 路 消息 保存 在 一 个 存储 如 缓存 中 ， 调 用 者 用 cp 参数 指定 该 缓存 的 起 始 
位 置 。 调 用 者 必须 保证 缓存 足够 长 ， 以 容纳 所 产生 的 选 路 消息 。 当 cp 参数 为 空 时 ,rt_msg2 
不 保存 任何 结果 而 是 处 理 输入 参数 ， 并 返回 保存 结果 所 需要 的 字 市 总 数 。 这 样 可 以 帮助 调用 
者 确定 缓存 的 大 小 。 我 们 可 以 看 到 route_output 就 利用 了 这 一 机 制 ， 它 调用 本 函数 两 次 : 
第 一 次 确定 缓存 的 大 小 ; 在 获得 了 大 小 无 误 的 缓存 后 ， 再 次 调用 本 函数 以 保存 结 末 。 
route_output 调 用 本 函数 时 ， 最 后 一 个 参数 为 空 ， 但 如 果 是 作为 sysct1l1 系 统 调用 处 理 的 
一 部 分 被 调用 时 ， 该 参数 就 不 是 空 指针 了 。 
1. 确定 结构 的 大 小 

458-470 定 长 消息 结构 的 大 小 是 根据 消息 类 型 来 确定 的 。 如 果 cp 指 针 非 空 ， 则 把 大 小 等 于 
定 长 消息 结构 长 度 的 偏 移 量 添加 到 cp 指针 上 去 。 
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2. 复制 插口 地 址 结构 
471-482 for 人 循环 查看 rti info 数 组 的 每 个 元 素 。 过 到 非 空 指针 时 ， 设 置 rti_addrs 比 
特 掩 码 中 的 相应 比特 ， 并 将 该 插口 地 址 结构 复制 到 cp 中 (如 果 cp 指 针 非 空 )， 并 修改 长 度 变量 。 

图 19-33 给 出 了 rt_msg2 国 数 的 后 半 部 分 。 其 代码 用 于 处 理 可 选 参数 walkarg 结 构 。 


- rtsock.c 
483 if (cp == 0 && w !- NULL && !second time) í( 
484 struct walkarg *rw - w; 
485 rw-»w needed += len; 
486 if (rw-»w needed <= 0 && rw-»w where) ( 
487 if (rw-»w tmemsize < len) { 
488 if (rw-»w tmem) 
489 free(rw-»w tmem, M RTABLE); 
490 if (rw-»w tmem = (caddr. t) 
491 malloc({len, M RTABLE, M NOWAIT)) 
492 rw-»w tmemsize - len; 
493 ) 
494 if (rw-»w tmem) { 
495 Cp - rw-»w tmem; 
496 second time - 1; 
497 goto again; 
498 ) else 
499 rw-»w where = 0; 
500 ) 
501 ) 
502 if (cp) ( 
503 struct rt msghdr *rtm = (struct rt msghdr *) cpO0; 
504 rtm-»rtm version - RTM VERSION; 
505 rtm-»rtm type = type; 
506 rtm-»rtm msglen - len; 
507 ) 
508 return (len); 
509 } 

rtsock.c 


图 19-33 rt _msg2 国 数 : 处 理 可 选 参 数 walkarg 


483-484 当 调 用 者 传递 了 一 个 非 空 的 walkarg 结 构 指 针 且 函数 第 一 次 执行 到 这 里 时 ， 该 if 
语句 的 判断 条 件 才 为 真 。 变 量 second_time 被 初始 化 成 0， 它 将 在 本 if 语句 中 被 设置 成 1， 
然后 程序 往 回 跳 转 到 图 19-32 中 的 标号 again 处 。cPp 为 空 指针 的 测试 是 不 必要 的 ， 因 为 当 w 指 
针 非 空 时 ，cp 指 针 一 定 是 空 ， 反 之 亦 然 。 
3. 检查 是 否 要 保存 数据 
485-486 w_needed 将 增 大 ， 其 增 量 为 报 文 长 度 的 值 。 该 变量 的 初始 值 为 0 减 去 sysct1 函 数 
中 用 户 缓存 的 长 度 。 例 如 ， 如 果 该 缓存 为 500 比 特 ， 则 w_needed 的 初始 值 为 -500。 只 要 该 变 
量 为 负 值 ， 则 表明 缓存 内 还 有 剩余 空间 。 在 调用 进程 中 ，w_where 是 指向 该 缓存 的 指针 。 
w_where 为 空 表 明 调 用 进程 不 想 要 函数 的 处 理 结果 ， 而 仅 想 获 得 systcl 处 理 结果 的 大 小 。 
此 ， 当 w_where 为 空 时 ，rt_msg2 没 有 必要 将 数据 复制 给 进程 ， 也 就 是 返回 给 调用 者 。 同 样 ， 
rt_msg2 也 没有 必要 为 保存 结构 而 申请 缓存 ， 也 不 需要 返回 到 标号 again 处 再 次 执行 ， 因 为 
再 次 执行 是 为 了 把 结果 填 入 到 缓存 里 。 本 函数 的 处 理 实际 上 只 有 五 种 情况 ， 如 图 19-34 所 示 。 
4. 第 一 次 调用 时 或 消息 长 度 增加 时 分 配 缓存 
487-493 w tmemsize 是 w_tmem 所 指向 的 缓存 的 长 度 。 它 被 sysctl_rtable 初 始 化 成 0。 
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因此 ， 对 于 给 定 的 sysct1 请 求 ， 在 第 一 次 调用 rt_msg2 时 ， 必 须 为 它 分 配 一 个 缓存 。 同 样 ， 
当 产 生 的 结果 的 长 度 增加 时 ， 必 须 释 放 原 有 的 缓存 ， 并 重新 分 配 一 个 更 大 的 缓存 。 


aae Jale lm 0*4 7] 


route_output ee 一 
£ 


"E | ET 进程 希望 返回 长 度 
sysctl rtable | 空 | dz | — dE | 0 | 第 一 次 执行 ,计算 长 度 
da | deis | — de | 1 | 第 = 次 执行 ,保存 结果 


图 19-34 rt_msg2 函 数 的 五 种 执行 情况 


5. 返回 再 执行 一 次 并 保存 结果 
494-499 如 果 w_tmemsize 非 空 , 则 表明 该 缓存 已 经 存在 或 刚 被 分 配 。 设 置 cp 指 同 该 缓存 ， 
把 second time 设 置 成 1， 跳 转 至 标号 again 处 。 因 为 second time 的 值 为 1， 所 以 第 二 次 
执行 到 本 图 的 第 一 个 语句 时 ，iE 语 句 的 判断 不 再 为 真 。 如 果 w_tmem 为 空 ， 则 表明 调用 
malloc 失 败 ， 因 此 ， 把 进程 中 的 缓存 指针 设置 成 空 指针 以 阻止 返回 任何 结果 。 

6. 保存 长 度 、 版 本 和 类 型 
502-509 如 果 cp 非 空 ， 则 保存 消息 首部 的 前 三 个 成 员 。 国 数 返 回报 文 的 长 度 。 


19.14 sysctl rtablerfZy 










本 函数 处 理 选 路 插口 的 sysct1 系 统 调用 。 如 图 18-11 所 示 ，net_sysct1l1 函 数 调用 了 该 
ER Ar 

在 解释 其 源 代 码 之 前 ， 图 19-35 给 出 了 该 系统 调用 关于 路 由 表 的 一 种 典型 的 用 法 。 这 个 例 
子 来 自 于 arp 程 序 。 


int mib[6]; 
size t needed; 
char *buf, *lim, *next; 


struct rt msghdr  *rtm; 


mib[0] = CTL NET; 


mib[1] = PF. ROUTE; 

mib[2] = 0; 

mib[3] = AF. INET; /* address family; can be 0 */ 
mib[4] = NET RT FLAGS; /* operation */ 

mib[5] = RTF. LLINFO; /* flags; can be 0 */ 


if (sysctl(mib, 6, NULL, &needed, NULL, 0) < 0) 
quit ("sysctl error, estimate"); 


if ( (buf = malloc(needed)) == NULL) 
quit ("malloc"); 
if (sysctl(mib, 6, buf, &needed, NULL, 0) < O0) 


quit ("sysctl error, retrieval"); 


lim = buf + needed; 
for (next = buf; next < lim; next += rtm-»-tm msglen) ( 
rtm - (struct rt msghdr *)next; j 
/* do whatever */ 


图 19-35 路 由 表 的 用 法 示例 
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mib 数 组 的 前 三 个 元 素 引 导 内 核 调用 sysct1_rtable， 以 处 理 其 余 的 元 素 。 

mib [4] 用 于 指定 操作 的 类 型 ， 共 支持 3 种 操作 类 型 。 

1) NET RT DUMP; 返回 mib [3] 指定 的 地 址 族 所 对 应 的 路 由 表 。 如 果 地 址 族 为 0， 则 返 
回 所 有 的 路 由 表 。 

针对 每 一 个 路 由 表 项 ， 程 序 都 将 返回 一 个 RTM_GET 选 路 消息 。 每 个 消息 可 能 包含 两 个 、 
三 个 或 四 个 插口 地 址 结构 。 这 些 地 址 结构 由 指针 rt_key、rt_gateway、rt_netmask 和 和 
rt_genmask 所 指向 。 其 中 最 后 两 个 指针 可 能 为 空 。 

2) NET RT FLAGS; 与 前 一 个 命令 相同 ， 但 mib [5] 指定 了 一 个 RTF_xxx 标 志 ( 图 18-25)， 
程序 仅 返 回 那些 设置 了 该 标志 的 表 项 。 

3) NET_RT_IFLIST: 返回 所 有 已 配置 接口 的 信息 。 如 果 mib [5] HETER, MEFA 
返回 if_index 为 相应 值 的 接口 。 人 否则 ， 返 回 所 有 ifnet 链 表 上 的 接口 。 

针对 每 个 接口 ， 将 返回 一 个 RTM_IEFINEFO 消 息 ， 该 消息 传递 了 有 关 接 口 本 身 的 一 些 信息 。 
之 后 用 一 个 RTM_NENWRDDR 消 息 传 递 接口 的 if _addr1list 上 的 每 个 ifaddr 结 构 。 如 果 
mib [3] KIÉ ZgdEO, Wi|/RTM NEWADDRiH.E, DG E AREH SETA E; mib [3] 相 匹配 的 地 址 。 人 否则 ， 
mib [3] 为 0， 将 返回 所 有 地 址 的 信息 。 


这 个 操作 是 为 了 替代 SIOCGIFCONF ioctl (图 4-26)。 


与 该 系统 调用 有 关 的 一 个 问题 是 ， 该 系统 返回 信息 的 数量 是 可 变 的 ， 这 种 变化 取决 于 路 
由 表 表 项 的 数目 和 接口 的 数目 。 因 此 ， 第 一 次 调用 sysct1l1 所 指定 的 第 三 个 参数 通常 是 个 空 指 
针 ， 也 就 是 说 ， 不 需要 返回 任何 选 路 信息 ， 只 要 把 该 信息 所 占 的 比特 数目 返回 即 可 。 从 图 19- 
35 中 我 们 可 以 看 出 ， 进 程 第 一 次 调用 sysct1 之 后 调用 了 mal1loc， 接 着 再 调用 sysct1 来 获 
取信 息 。 第 二 次 调用 时 ， 通 过 第 四 个 参数 ，sysct1 又 返回 了 该 比特 数目 (该 数目 与 上 次 相 比 
可 能 会 有 变化 )。 通 过 该 数目 我 们 可 以 得 到 指针 1im， 它 指向 的 位 置 位 于 返回 的 最 后 一 个 字 市 
之 后 。 进 程 接 着 就 遍历 缓存 中 的 每 个 消息 ， 利 用 rtm_msglen 可 找到 下 一 个 消 明 。 

Lbs 36 给 出 了 不 同 的 Net /3 程序 访问 路 由 表 和 接口 列表 时 指定 的 这 六 个 mib 变 量 的 值 。 





RTF_LLINFO 


图 19-36 调用 sysct1 获 取 路 由 表 和 接口 列表 的 程序 举例 


前 三 个 程序 从 路 由 表 中 提取 路 由 表 项 ， 后 三 个 从 接口 列表 中 提取 数据 。route 程 序 仅 文 
持 Internet 选 路 协议 ， 所 以 它 指定 mib [3] 的 值 为 AF_INET， 而 gated 还 支持 其 他 协议 ， 
所 以 它 对 应 的 mib [3] 的 值 为 0。 

图 19-37 画 出 了 三 个 sysct1_xxx 国 数 的 结构 ， 在 后 面 的 几 节 中 会 逐个 耶 以 将 述 。 

图 19-38 给 出 了 sysct1l rtablerf Zt. 

1. 验证 参数 
705-719 当 进 程 调用 sysct1 来 设置 一 个 路 由 表 中 不 支持 的 变量 时 ， 使 用 new 参 数 。 因 此 该 
参数 必须 是 一 个 空 指针 。 
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720-721 namelen 必 须 是 3， 因 为 系统 调用 处 理 到 这 儿 时 ，name 数 组 中 有 三 个 元 素 : 
name [0] ， 地 址 族 (进程 中 它 被 指定 为 mib [3] ); name [1] ， 操 作 (mib [4] )， 以 及 name [2], 
标志 (mib [5]), 





705 
706 
707 
708 
709 
710 
711 
712 
713 
714 
715 
716 
717 


718 
1749 


720 
Ted 
722 
723 


sysctl 


系统 调用 





sysctl rtable 





在 缓存 中 创建 路 由 报 
文 并 将 之 复制 给 进程 
图 19-37 支持 针对 选 路 插口 的 sysct1l1 系 统 调用 的 函数 
rtsock.c 
int : 
sysctl rtable(name, namelen, where, given, new, newlen) 
int *name; 
int namelen; 
caddr t where; 


Size t *given; 

caddr t *new; 

size t newlen; 

( 
struct radix node head *rnh; 
int i, S, error = EINVAL; 
u_char af; 
struct walkarg w; 


if (new) 
return (EPERM); 
if (namelen !- 3) 
return (EINVAL); 
af - name[0]; 
Bzero(&w, sizeof(w)); 


图 19-38 sysctl rtable 国 数 : 处 理 sysct1 系 统 调 用 请 求 
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724 w.w where - where; 
725 w.w given - *given; 
726 w.w needed - 0 - w.w given; 
727 w.w op = name[1]; 
728 w.w arg = name([2]; 
729 S - Splnet(); 
730 switch (w.w op) ( 
331 case NET RT DUMP: 
732 case NET RT FLAGS: 
733 for (1 = 1; 1 <= AF MAZ: i++) 
734 if ((rnh = rt tables(i]) && (af == 0 || af == i) && 
735 (error = rnh->rnh_walktree(rnh, 
736 sysctl_dumpentry, &w))) 
737 break; 
738 break; 
739 case NET_RT_IFLIST: 
740 error = sysctl iflist(af, &w); 
741 ) 
742 splx(s); 
743 if (w.w tmem) 
744 free(w.w tmem, M RTABLE); 
745 w.w needed += w.w given; 
746 if (where) ( 
747 *given - w.w where - where; 
748 if (*given « w.w needed) 
749 return (ENOMEM); 
750 ) else ( 
TSA *given = (11 * w.w needed) / 10; 
752 ) 
753 return (error); 
754 ) 
rtsock.c 
图 19-38 (£x) 
2. 初始 化 walkarg 结 构 


723-728 把 walkarg 结 构 ( 图 19-31) 设 置 成 0， 并 初始 化 下 列 成 员 ， 把 w_where 设 置 成 调用 
进程 中 为 结果 准备 的 缓存 地 址 ;，w_given 是 该 缓存 的 比特 数目 ( 当 w_where 为 空 指针 时 ， 作 
为 输入 参数 ,该 成 员 没 有 实际 含义 ， 但 在 输出 时 它 必 须 被 设置 成 将 要 返回 的 结果 的 长 度 )， 
w_needed 被 设置 成 缓存 的 大 小 的 负数 ，w_op 指 明 操 作 类 型 ( 值 为 NET_RT_xxx); w_arg 被 
设置 成 标志 值 。 

3. 导出 路 由 表 
731-738 NET RT DUMP 和 NET _RT_FLRAGS 操 作 的 处 理 是 相同 的 : 利用 一 个 循环 语句 遍历 
所 有 的 路 由 表 (rt_table 数 组 )， 如 果 系 统 使 用 了 该 路 由 表 ， 并 且 地 址 族 调用 参数 为 0 或 地 址 
族 调用 参数 与 该 路 由 表 的 族 相 匹配 ， 则 调用 rnh_walktree 函 数 来 处 理 整 个 路 由 表 。 图 18- 
17 所 给 出 的 rnh walktree 国 数 是 通常 使 用 的 xn_walktree 国 数 。 该 国 数 的 第 二 个 参数 的 
值 是 另 一 个 国 数 的 地 址 ， 这 个 国 数 (sysct1_dumpentry) 将 被 调用 以 处 理 选 路 树 的 每 一 个 叶 
子 。rn_walktree 的 第 三 个 参数 是 个 任意 类 型 的 指针 ,该 指针 将 传递 给 
sysctl_dumpentry 函 数 。 在 这 里 ， 它 指向 一 个 walkarg 结 构 ， 该 结构 包含 了 有 关 
sysct1 调 用 的 所 有 信息 。 
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4. 返回 接口 列表 
739-740 NET RT IFLIST 操 作 调 用 sysctl iflist 畏 数 来 处 理 所 有 的 ifnet 结 构 。 

S. 释放 缓存 
743-744 如 打 由 zt_msg2 分 配 的 缓存 里 含有 选 路 消息 ， 则 释放 该 缓存 。 

6. 更 新 w_needed 
745 It_msg2 国 数 把 每 个 消息 的 长 度 都 加 入 到 w_needaed 中 。 而 该 变量 被 我 们 初始 化 成 
w_given 的 负数 ， 所 以 它 的 值 可 以 表示 成 : 

w needed = 0 - w given + totalbytes 
式 中 ，totalbytes 表 示 由 rt_msg2 函 数 添 加 的 所 有 消息 的 长 度 总 和 。 通 过 往 w_needed 中 
加 入 w_given 的 值 ， 我 们 就 能 得 到 所 有 消息 的 字 市 总 数 : 


w needed = 0 - w given + totalbytes + w given 
- totalbytes 


因为 等 式 中 两 个 w_given 的 值 最 终 相 互 抵消 ， 所 以 当 进 程 所 指定 的 w_where 是 个 空 指针 
时 ， 就 没有 必要 初始 化 w_given 的 值 。 事 实 上 ， 图 19-35 中 的 变量 needed 就 没有 被 初始 化 。 

7. 返回 报 文 的 实际 长 度 
746-749 如 果 where 指 针 非 空 ， 则 通过 given 指 针 人 返回 保 存在 缓存 中 的 字 市 数 。 如 果 返 回 
的 数值 小 于 进程 指定 的 缓存 的 大 小 ， 则 返回 一 个 差错 ， 因 为 返回 信息 被 截 短 了 。 

8. 返回 报 文 长 度 的 估算 值 
750-752 当 where 指 针 为 空 时 ， 进 程 只 想 获 得 要 返回 的 字 节 总 数 。 为 了 防止 在 两 次 
sysct1 调 用 之 间 相应 的 表 被 增 大 ， 我 们 将 该 字 节 总 数 扩 大 了 10%。10% 这 个 增 量 的 确定 没有 
特定 的 理由 。 


19.15 sysctl dumpentry 函 数 


在 前 一 节 中 我 们 阐述 了 被 sysctl_rtable 调 用 的 rn_walktree 是 如 何 调用 本 函数 的 。 
图 19-39 给 出 了 本 函数 的 代码 。 
623-630 每 次 调用 本 函数 时 ， 第 一 个 参数 指 癌 一 个 radix_node 结 构 ， 同 时 它 也 是 一 个 
rtentry 结 构 的 指针 ， 第 二 个 参数 指 同 一 个 由 sysctl rtable 初 始 化 了 的 walkarg 结 构 。 

1. 检测 路 由 表 项 的 标志 
631-632 如 果 进 程 指定 了 标志 值 (mib [5] )， 则 忽略 那些 rt_flags 成 员 中 没有 设置 该 标志 上 
表 项 。 在 图 19-36 中 ， 我们 可 以 看 到 arp 程 序 使 用 这 种 方法 来 选择 那些 设 有 RTF_LLINFO 标 志 的 
表 项 ， 因 为 ARP 仅 对 这 些 表 项 感 兴趣 。 

2. 构造 选 路 消息 
633-638 ti_info 数 组 中 的 下 列 四 个 指针 是 从 路 由 表 项 中 复制 而 得 的 : dst. gate, 
netmask 和 genmask。 前 两 个 总 是 非 空 的 ,但 另外 两 个 可 以 是 空 指针 。 调 用 rt_msg2 是 为 
了 构造 一 个 RTM_GET 消 息 。 

3. 复制 消息 回 传 给 进程 
639-651 如 果 进 程 需要 返回 一 个 报 文 ， 并 且 rt_msg2 分 配 了 一 个 缓存 ， 则 将 选 路 报 文中 的 
其 余部 分 填写 到 w_tmem 所 指向 的 缓存 中 去 ， 并 调用 copyout 复 制 消息 回 传 给 进程 。 如 果 复 
制 成 功 ， 就 增 大 w_where， 增 加 的 数目 等 于 所 复制 的 字 节 的 数目 。 
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rtsock.c 
623 int 
624 sysctl dumpentry(rn, w) 
625 struct radix node *rn; 
626 struct walkarg *w; 
627 ( 
628 struct rtentry *rt - (struct rtentry *) rn; 
629 int error = 0, Size; 
630 struct rt, addrinfo info; 
631 if (w-»w op == NET RT FLAGS && !(rt-»rt flags & w-»w arg)) 
632 return 0; 
633 bzero((caddr t) & info, sizeof(info)); 
634 dst = rt key(rt); 
635 gate - rt-»rt, gateway; 
636 netmask - rt mask(rt); 
637 genmask - rt-»rt genmask; 
638 size = rt msg2(RTM GET, &info, O0, W}? 
639 if (w-»w where && w-»w tmem) ( 
640 struct rt msghdr *rtm = (struct rt msghdr *) w-»w. tmem; 
641 rtm-»rtm flags - rt-»rt flags; 
642 rtm-»rtm use = rt-»rt use; 
643 rtm-»rtm rmx = rt-»rt. rmx; 
644 rtm-»rtm index - rt-»rt ifp-»if index; 
645 rtm-»rtm errno - rtm-»rtm pid - rtm-»rtm seq - 0; 
646 rtm-»rtm addrs = info.rti addrs; 
647 if (error - copyout((caddr t) rtm, w-»w where, size)) 
648 w-»w where - NULL; 
649 else 
650 w-»w where += size; 
651 ) 
652 return (error); 
Ee rtsock.c 


图 19-39 sysctl dumpentry 函 数 : 处 理 一 个 路 由 表 项 


19.16 sysctl iflist 函 数 


图 19-40 给 出 了 本 函数 的 代码 。 本 函数 由 sysct1l_rtable 直 接 调用 ， 用 来 把 接口 列表 返 
回 给 进程 。 

本 函数 由 一 个 for 循 环 组 成 ， 该 循环 从 指针 ifnet 开 始 ， 针 对 每 个 接口 重复 执行 。 接 着 
用 whi1le 循 环 处 理 每 个 接口 的 faddr 结 构 链 表 。 函 数 将 针对 每 个 接口 产生 一 个 
RTM_IFINFO 选 路 消息 ， 并 且 针 对 每 个 地 址 产生 一 个 RTM_NEWADDR 消 奶 。 

1. 检测 接口 索引 
654-666 进程 可 以 指定 一 个 非 零 的 标志 参数 (图 19-36 中 的 mib [5])。 函 数 用 接口 的 
if_index 值 与 之 比较 ， 只 有 匹配 时 ， 才 进行 处 理 。 

2. 创建 选 路 消息 
667-670 在 RTM_IFINFO 消 息 中 只 返回 了 唯一 的 一 个 插口 地 址 结构 ， 即 ifpaddr。 该 
RTM_IFINFO 消 息 是 由 rt_msg2 创 建 的 。info 结 构 中 的 ijfpaddr 指 针 被 设置 成 0， 因 为 该 
info 结 构 还 要 用 来 产生 后 面 的 RTM_NEWADDR 消 息 。 


3. 复制 消息 回 传 给 进程 
671-681 如 果 进 程 需要 返回 消息 ， 则 填 入 if_msghdr 结 构 的 其 余部 分 ， 用 copyout 给 进 
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程 复制 该 缓存 ， 并 增 大 w_where。 





rtsock.c 
654 int 
655 sysctl iflist(af, w) 
656 int af; 
657 struct walkarg *w; 
658 ( 
659 struct ifnet *ifp; 
660 struct ifaddr *ifa; 
661 struct rt addrinfo info; 
662 int len, error = O0; 
663 bzero((caddr t) & info, sizeof(info)); 
664 for (ifp = ifnet; ifp; ifp = ifp-»if next) ( 
665 if (w-»w arg && w-»w arg !- ifp-»if index) 
666 continue; 
667 ifa - ifp-»if addrlist; 
668 ifpaddr = ifa-»ifa addr; 
669 len = rt msg2(RTM IFINFO, &info, (caddr t) O0, w); 
670 ifpaddr - 0; 
671 if (w-»w where && w-»w tmem) ( 
672 struct if msghdr *ifm; 
673 ifm - (struct if msghdr *) w-»w tmem; 
674 ifm-»ifm index = ifp-»if index; 
675 ifm-»ifm flags = ifp-»if flags; 
676 ifm-»ifm data = ifp-»if data; 
677 ifm-»ifm addrs = info.rti addrs; 
678 if (error - copyout((caddr t) ifm, w-»w where, len)) 
679 return (error); 
680 w-»w where += len; 
681 ) 
682 while (ifa - ifa-»ifa next) ( 
683 if (af && af !- ifa-»ifa addr-»sa, family) 
684 continue; 
685 ifaaddr = ifa-»ifa addr; 
686 netmask = ifa-»ifa netmask; 
687 brdaddr = ifa-»ifa dstaddr; 
688 len - rt, msg2(RTM NEWADDR, &info, O0, w); 
689 if (w-»w where && w-»w tmem) ( 
690 struct ifa, msghdr *ifam; 
691 ifam - (struct ifa msghdr *) w-»w tmem; 
692 ifam-»ifam index = ifa-»ifa ifp-»if index; 
693 ifam-»ifam flags = ifa-»ifa flags; 
694 ifam-»ifam metric = ifa-»ifa metric; 
695 ifam-»ifam addrs = info.rti addrs; 
696 if (error = copyout(w-»w tmem, w-»w where, len)) 
697 return (error); 
698 w-»w where += len; 
699 ) 
700 ) 
701 ifaaddr - netmask - brdaddr - 0; 
702 ) 
703 return (0); 
704 ) 
rtsock.c 


图 19-40 sysctl iflist 函 数 : 返回 接口 列表 及 其 地 址 


4. 循环 处 理 每 一 个 地 址 结构 ， 检 测 其 地 址 族 
682-684 ”处理 接口 的 每 一 个 ifaddr 结 构 。 进 程 也 可 以 指定 一 个 非 零 地 址 族 ( 图 19-36 中 的 
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mib [3] ) 来 选择 仅 处 理 那 些 指定 族 的 接口 地 址 。 

S. GI E DEA IE 
685-688 rt_msg2 创 建 的 每 个 RTM_NEWRADDR 消 息 中 最 多 可 以 返回 三 个 揪 口 地 址 结构 : 
ifaddr, netmaskflbrdaddr, 

6. 复制 消息 回 传 给 进程 
689-699 如 果 进 程 需要 返回 消息 ， 则 填 入 ifa_msghdar 结 构 的 其 余部 分 ， 用 copyout 给 进 
程 复 制 缓存 ， 并 增 大 w_where。 
701 因为 info 数 组 还 要 在 下 一 个 接口 消息 中 使 用 ， 所 以 程序 将 其 中 的 这 三 个 指针 设置 成 0。 


19.17 ”小结 


所 有 选 路 消息 的 格式 都 是 相同 的 一 一 一 个 定 长 的 结构 ， 后 和 面 跟着 硅 干 个 插口 地 址 结构 。 
共有 三 种 不 同类 型 的 消息 ， 各 自 具 有 相应 的 定 长 结构 ， 每 种 定 长 结构 的 前 三 个 元 素 都 分 别 
标识 消息 的 长 度 、 版 本 和 类 型 。 每 种 结构 中 的 比特 掩 码 指 定 哪些 插口 地 址 结构 跟 在 定 长 结 
构 之 后 。 

这 些 消息 以 两 种 方式 在 内 核 与 进程 之 间 传 递 。 消 息 可 以 在 任意 一 个 方向 上 传递 ， 并 且 都 
是 通过 选 路 插口 每 次 读 或 写 一 个 消息 。 这 就 使 得 一 个 超级 用 户 进 程 对 内 核 路 由 表 的 访问 具有 
完全 的 读 写 能 力 。 选 路 守护 进程 (如 routed 和 gated) 就 是 这 样 实现 其 期 望 的 选 路 策略 的 。 

另外 ， 任 何 一 个 进程 都 可 以 用 sysct1 系 统 调用 来 读 取 内 核 路 由 表 的 内 容 。 这 种 方法 不 需 
要 涉及 选 路 插口 ， 也 不 需要 特别 的 权限 。 最 终 的 结果 通常 包含 许多 选 路 消息 ， 该 结果 作为 系 
统 调 用 的 一 部 分 被 返回 。 由 于 进程 不 知道 结果 的 大 小 ， 因 此 ， 为 系统 调用 提供 了 一 种 方法 来 
返回 结果 的 大 小 而 不 返回 结果 本 身 。 
习题 

19.1 RTF DYNAMIC 和 RTF _ MODIFIED 标志 之 间 有 什么 区 别 ? 对 于 一 个 给 定 的 路 由 表 

项 ， 它 们 可 以 同时 设置 吗 ? 
19.2 当 用 下 列 命令 添加 默认 路 由 时 会 有 什么 情况 发 生 ? 
bsdi $ route add default -cloning -genmask 255.255.255.255 sun 


19.3 茶 路 由 表 包 含 了 15 个 ARP 表 项 和 20 个 路 由 ， 试 估算 用 sysct1 导 出 该 路 由 表 时 需要 


多 少 空 间 。 


252038 选 路 插口 


20.1 引言 


进程 使 用 选 路 域 (routing domain) 中 的 一 个 插口 来 发 送 和 接收 前 一 章 所 描述 的 选 路 报 文 。 
socket 系 统 调用 需要 指定 PF_ROUTE 的 族 类 型 和 SOCK RAW 的 插口 类 型 。 

接着 ， 该 进程 可 以 回 内 核发 送 以 下 五 种 选 路 报 文 。 

1)RTM ADD: 增加 一 条 新 路 由 。 

2)RTM DELETE; 删除 一 条 已 经 存在 的 路 由 。 

3) RTM GET: 取得 有 关 一 条 路 由 的 所 有 信息 。 

4)RTM CHANGE; 改变 一 条 已 经 存在 路 由 的 网 关 、 接 口 或 者 度量 。 

5) RTM_LOCK: 说 明 内 核 不 应 该 修改 哪个 度量 。 

除 此 之 外 ， 该 进程 可 以 接收 其 他 七 个 选 路 报 文 ， 这 些 报 文 是 在 发 生 某 些 事 件 (如 接口 下 
线 和 收 到 重 定 同 报 文 等 ) 时 ， 由 内 核 生成 的 。 

本 章 简 介 选 路 域 、 为 每 个 选 路 插口 创建 的 选 路 控制 块 、 处 理 进 程 产生 的 报 文 的 函数 
(route_output)、 发 送 选 路 报 文 给 一 个 或 多 个 进程 的 图 数 (raw_input)， 以 及 支持 一 个 选 
路 插口 上 所 有 插口 操作 的 不 同 图 数 。 


20.2 routedomain 和 protosw 结 构 


在 摘 述 选 路 插口 函数 之 前 ， 我 们 需要 讨论 有 关 选 路 域 的 其 他 一 些 细 节 、 在 选 路 域 中 支持 
的 SOCK_RAW 协 议 ， 以 及 每 个 选 路 插口 所 附带 的 选 路 控制 块 。 
图 20-1 列 出 了 称 为 routedomain 的 PF ROUTE 域 的 domain 结 构 。 


dom family PF ROUTE 域 的 协议 族 

dom name route 和 名字 

dom init route init 域 的 初始 化 ， 图 18-30 
dom externalize 0 在 选 路 域 中 不 使 用 
dom dispose 0 在 选 路 域 中 不 使 用 


dom protosw routesw 协议 交换 结构 ， 图 20-2 

dom protoswNPROTOSW 指向 协议 交换 结构 之 后 的 指针 
dom next HdomaininitiR A, [7-15 
dom rtattch 在 选 路 域 中 不 使 用 

dom rtoffset 在 选 路 域 中 不 使 用 

dom maxrtkey 在 选 路 域 中 不 使 用 





图 20-1 routedomain 结 构 


与 支持 多 个 协议 (TCP、UDP 和 ICMP 等 ) 的 Internet 域 不 一 样 ， 在 选 路 域 中 只 支持 
SOCK_RAW 类 型 的 协议 。 图 20-2 列 出 了 PF_ROUTE 域 的 协议 转换 项 。 
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pr type SOCK RAW 


pr domain 


pr protocol 0 


pr flags 


pr input raw input 


pr output route output 


pr ctiinput raw ctlinput 


pr ctloutput 0 


pr usrreq 


pr init raw init 


pr fasttimo 


pr slowtimo 


pr drain 


pr sysctl sysctl rtabl 


&routedomain 


route usrreq 


e 





原始 插口 
选 路 域 部 分 


PR ATOMI|PR ADDR | 插口 层 标 志 ， 协 议 处 理 时 不 使 用 


不 使 用 这 项 ，raw_input 直接 调用 
PRU_SEND 请 求 所 调用 

控制 输入 函数 

不 使 用 

对 一 个 进程 通信 请 求 的 啊 应 

初始 化 

不 使 用 

不 使 用 

不 使 用 

用 于 sysct1(8) 系 统 调用 


图 20-2 选 路 协议 protosw 的 结构 


20.3 选 路 控制 块 
每 当 采 用 如 下 形式 的 调用 创建 一 个 选 路 插口 时 ， 


socket (PF ROUTE, SOCK RAM, protocol); 
与 协议 的 用 户 请 求 函数 (route_usrreq) 对 应 的 PRU_ATTACH 请 求 会 分 配 一 个 选 路 控制 块 ， 
并 且 将 它 链接 到 插口 结构 上 。protocol 参 数 可 以 将 发 送 给 这 个 插口 上 的 进程 的 报 文 类 型 限制 
为 一 个 特定 族 。 例 如 ， 如 果 将 protocol 参 数 指定 为 AF_INET， 只 有 包含 了 Internet 地 址 
的 选 路 报 文 将 被 发 送 给 这 个 进程 。protocol 参 数 为 0 将 使 得 来 目 内 核 的 所 有 选 路 报 文 都 发 送 给 


这 个 插口 。 


回忆 一 下 ， 我 们 把 这 些 结 构 称 为 选 路 控制 块 ， 而 不 是 原始 控制 块 (raW control 
block)， 是 为 了 避免 与 第 32 章 中 的 原始 IP 控 制 块 相 混 清 。 


图 20-3 显 示 了 rawcb 结 构 的 定义 。 


39 struct rawcb { 


40 struct 
41 struct 
42 struct 


43 struct 
44 struct 
45 struct 


47 4$dGefine sotorawcb(so) 


种 情况 。 


rawcb *rcb next; 
rawcb *rcb prev; 
SOCket *rcb socket; 
sockaddr *rcb, faddr; 
sockaddr *rcb laddr; 
Sockproto rcb,. proto; 


/* 


/* 
/* 
/* 
/* 


raw cb.h 


doubly linked list */ 


back pointer to socket */ 
destination address */ 
SOoCket's address */ 

protocol family, protocol */ 


( (struct rawcb *)(so)-»so pcb) 


raw cb.h 


图 20-3 rawcb 结 构 


另外 ， 分配 了 一 个 相同 名 字 的 全 局 结构 rawcb 作 为 这 个 双向 链表 的 头 。 图 20-4 显 示 了 这 


39-47 我们 在 图 19-26 中 显示 了 sockproto 的 结构 。 它 的 sp_family 成 员 变 量 被 设置 为 
PF ROUTE, sp_protocol 成 员 变 量 被 设置 为 socket 系 统 调用 的 第 三 个 参数 。 
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rcb_faddr 成 员 变 量 被 永久 性 地 设置 为 指向 zxoute_stzc 的 指针 ， 我 们 在 图 19-26 中 描述 了 


route src, rcb laddr 总 是 一 个 空 指 针 。 


TR TT 描述 符 
: : 
file() file() 







DTYPE SOCKET 































socket {} socket {} 
SOCK_RAW 
A PEE EROR SEHE 
rawcb() rawcb() rawcbí) 协议 层 
rcb faddr rcb faddr 
rcb laddr rcb laddr 
i i a a 1) coc. MEN 区 
双 问 链接 循环 列表 


图 20-4 原始 协议 控制 块 与 其 他 数据 结构 的 关系 
20.4 raw init 函数 


在 图 20-5 中 显示 的 raw_init 函 数 是 图 20-2 中 的 protosw 结 构 的 协议 初始 化 函数 。 我 们 
在 图 18-29 中 描述 了 选 路 域 的 完整 初始 化 过 程 。 
38-42 这 个 函数 将 头 结构 的 下 一 个 和 前 一 个 指针 设置 为 指向 自身 来 对 这 个 双向 链表 进行 初 
Ant. 


raw usrreq.c 
38 void 
39 raw init() 
40 ( 
41 rawcb.rcb next - rawcb.rcb prev - &rawcb; 
42 ) 
raw usrreq.c 


图 20-5 raw initi. 初始 化 选 路 控制 块 的 双向 链表 


20.5 route output 函数 


如 同 我 们 在 图 18-11 所 显示 的 ， 当 给 协议 的 用 户 请 求 函数 发 送 PRU SEND 请求 时 ， 就 会 调 
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用 route_output，,， 这 是 一 个 进程 向 一 个 选 路 插口 进行 写 操 作 所 引起 的 。 在 图 18-9 中 ， 我 们 
给 出 了 内 核 接 受 的 、 由 进程 发 出 的 五 种 不 同类 型 的 选 路 报 文 。 

因为 这 个 函数 是 由 一 个 进程 的 写 操作 激活 的 ， 来自 该 进程 的 数据 (发 送 给 进程 的 选 路 报 文 ) 
被 放 在 一 个 由 sosend 开 始 的 mbuf 链 中 。 图 20-6 显 示 了 大 概 的 处 理 步 骤 ， 假 定 进程 发 送 了 一 个 
RTM_ADD 命 令 ， 指 定 三 个 地 址 : 目的 地 址 、 它 的 网 关 和 一 个 网 络 掩 码 (因此 ， 这 是 一 个 网 络 路 
由 ， 而 不 是 一 个 主机 路 由 )。 


raw input 
选择 的 进程 





rt msghdrí() 
的 数据 


目的 IP 地 址 
i sockaddr_in{} 
网 关 IP 地 址 
Sockaddr iní() 
网 络 掩 码 
sockaddr_in{} 


rt_addrinfo{} 


rti_info[DST] 


rti_info [GATEWAY] 


rti info[NETMASK] 从 rtm addrs 位 掩 码 构 


rt i info [GENMASK] NULL 造 的 rt_addrs 指 针 数 组 


rti info[AUTHOR] |NULL 


rti info[BRD] NULL 
图 20-6 一 个 进程 发 出 的 RTM_ADD 命 令 的 处 理 过 程 示例 


在 这 个 图 中 有 几 点 需要 引起 注意 ， 我 们 在 介绍 route_output 的 源 代码 时 讨论 了 这 里 需 
要 注意 的 大 多 数 情况 。 另 外 ， 为 了 节省 篇 幅 ， 我 们 省 略 了 rt_addrinfo 结 构 中 每 个 数组 下 
标的 RTAX_ 前 级 。 

* 进程 通过 设置 位 掩 码 rYtm_addrs 来 指定 在 定 长 的 rt_msghdr 结 构 之 后 有 哪些 插口 地 址 
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结构 。 我 们 显示 了 一 个 值 为 0x07 的 位 掩 码 ， 表 示 有 一 个 目的 地 址 、 一 个 网 关 地 址 和 一 
个 网 络 掩 码 (图 19-19)。RTM_ADD 命 令 需 要 前 两 个 地 址 ， 第 三 个 地 址 是 可 选 的 。 男 一 个 
可 选 的 地 址 ，genmask 指 定 用 来 产生 克隆 路 由 的 掩 码 。 

。write 系 统 调用 (sosend 函 数 ) 将 来 自 进 程 的 一 个 缓存 数据 复制 到 内 核 的 一 个 mbuf 链 中 。 

«m copydata 将 mbuf 链 中 的 数据 复制 到 route _output 使 用 mal1loc 获 得 的 一 个 缓存 
中 。 访 问 存 储 在 单个 连续 缓存 中 的 结构 以 及 结构 后 面 的 若干 播 口 地 址 结构 ， 比 访问 一 个 
mbuf 链 更 容易 。 

“route_output 调 用 rt _xaddrs 尔 数 取 得 位 掩 码 ， 并 且 构 造 一 个 指 问 缓存 的 
rt addrinfo 结 构 。route _output 中 的 代码 使 用 图 19-19 中 第 五 栏 显 示 的 名 字 来 引 
用 这 些 结构 。 位 掩 码 也 要 复制 到 rti_addrs 成 员 中 。 

“route_output 一 般 要 修改 rt_msghdr 结 构 。 如 果 发 生 了 一 个 错误 ， 相 应 的 errno 值 
会 被 返回 到 rtm_errno 中 (例如 ， 如 果 路 由 已 经 存在 ， 则 返回 EEXIST); 否则 ， 
RTF_DONE 标 志 与 进程 提供 的 rtm_f1ags 执 行 逻 辑 或 操作 。 

“rt_msghdr 结 构 以 及 接着 的 地 址 成 为 0 个 或 多 个 正在 读 选 路 插口 的 进程 的 输入 。 首 先 使 
用 m_copyback 将 缓存 转换 为 一 个 mbuf 链 。raw_input 经 过 所 有 的 选 路 PCB， HHE 
递 一 个 副本 给 对 应 的 进程 。 我 们 还 显示 了 一 个 带 有 选 路 插口 的 进程 ， 如 果 该 进程 没有 禁 
用 SO_USELOOPBACK 插 口 选项 ， 就 会 收 到 它 写 给 那个 插口 的 每 个 报 文 的 一 个 副本 。 

为 了 避免 收 到 它们 自己 的 选 路 报 文 的 副本 ， 有 些 程序 (如 route) 将 第 二 个 参数 置 

为 0 来 调用 shutdown， 以 防止 从 选 路 插口 上 收 到 任何 数据 。 


我 们 分 七 个 部 分 来 分 析 route_output 的 源 代码 。 图 20-7 显 示 了 这 个 函数 的 大 概 流程 。 


int 

route output(í) 

( 
R Mallocí() to allocate buffer; 
m copydata() to copy from mbuf chain into buffer; 
rt xaddrs() to build rt addrinfo(); 


switch (message type) ( 

case RTM ADD: 
rtrequest(RTM ADD); 
rt setmetrics(); 
break; 

case RTM DELETE: 
rtrequest(RTM DELETE); 
break; 


case RTM GET: 

case RTM CHANGE: 

case RTM LOCK: 
rtallocl(); 


switch (message type) { 
case RTM GET: 
rt msg2(RTM GET); 
break; 


case RTM CHANGE: 
图 20-7 zoute_output 处 理 步骤 小 结 
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int 

route output(m, so) 

struct mbuf *m; 

struct socket *so; 

( 
struct rt, msghdr *rtm s 0; 
struct rtentry *rt = 0; 
struct rtentry *saved nrt = 0; 
struct rt, addrinfo info; 
int len, error = 0; 
struct ifnet *ifp = 0; 
struct ifaddr *ifa = 0; 


define senderr(e) ( error = e; goto flush;) 
if (m == 0 || ((m-»m len < sizeof(long)) && 
(n = m pullup(m, sizeof(long))) 
return (ENOBUFS); 
if ((m-»m flags & M PKTHDR) == 0) 
panic("route output"); 
len - m-»m pkthdr.len; 


if (len < sizeof(*rtm) || 
len != mtod(m, struct rt, msghdr *)-»rtm msglen) ( 
dst z 0; 
senderr (EINVAL); 
) 
R Malloc(rtm, struct rt, nmsghdr *, len); 
if (rtm == 0) ( 
dst = 0; 
senderr (ENOBUFS); 


) 
m copydata(m, 0, len, (caddr t) rtm); 
if (rtm-»rtm version !- RTM VERSION) ( 
dst s 0; 
senderr (EPROTONOSUPPORT) ; 
) 
rtm-»rtm pid = curproc-»p. pid; 


info.rti. addrs = rtm-»rtm addrs; 


zz 0)) 


rt xaddrs((caddr t) (rtm + 1), len + (caddr t) rtm, &info); 


图 20-8 route outputFAZk: 初始 化 处 理 ， 从 mbuf 链 中 复制 报 文 
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change appropriate fields; 
/* fall through */ 
case RTM LOCK: 
set rmx locks; 
break; 
} 
break; 
} 
set rtm_error if error, else set RTF_DONE flag; 
m_copyback() to copy from buffer into mbuf chain; 
raw_input (); /* mbuf chain to appropriate processes */ 
] 
图 20-7 (£x) 
route output 的 第 一 部 分 显示 在 图 20-8 中 。 
rtsock.c 
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150 if (dst sse 0) 

151 senderr (EINVAL); 

152 if (genmask) ( 

153 struct radix node *t; 

154 t = rn addmask((caddr t) genmask, 1, 2); 

155 if (t && Bcmp(genmask, t-»rn key, *(u char *) genmask) -- 0) 
156 genmask - (struct sockaddr *) (t-»rn key); 

157 else 

158 senderr (ENOBUFS) ; 

159 ) 


~ rtsock.c 


图 20-8 (fX) 


1. 检查 mbuf 的 合法 性 
113-136 检查 mbuf 的 合法 性 : 它 的 长 度 必 须 至 少 是 一 个 rt_msghdr 结 构 的 大 小 。 从 mbuf 
的 数据 部 分 取出 第 一 个 长 字 ， 里 面包 含 了 rtm_msglen 的 值 。 

2. 分 配 缓存 
137-142 分 配 一 个 缓存 来 存放 整个 报 文 ，m_copydata 将 报 文 从 mbuf 链 复制 到 缓存 。 

3. 检查 版 本 号 
143-146 检查 报 文 的 版 本 号 。 如 果 将 来 引入 了 新 版 本 的 选 路 报 文 ， 这 个 成 员 变 量 可 以 用 来 
对 早期 版 本 提供 支持 。 
147-149 进程 的 ID 被 复制 到 rtm_pid， 进 程 提 供 的 位 掩 码 被 复制 到 该 函数 的 一 个 内 部 结构 
info.rti addrs, mrt xaddrs( 在 下 一 节 介 绍 ) 填 入 info 结 构 的 第 8 个 插口 地 址 指针 来 
指示 当前 包含 报 文 的 缓存 。 

4. 需要 的 目的 地 址 
150-151 所 有 的 命令 都 需要 一 个 目的 地 址 。 如 果 info.rti info[RTAX DST] 项 是 一 个 
空 指针 ， 就 需要 一 个 EINVAL。 记 住 dQst 引 用 了 这 个 数组 成 员 ( 图 19-19)。 

5. 处 理 可 选 的 genmask 
152-159 genmask 是 可 选 的 ， 它 是 在 设置 了 RTF_CLONING 标 志 后 (图 19-8) 用 作 所 创建 路 由 
的 网 络 掩 码 。rn_addmask 将 这 个 掩 码 加 入 到 掩 码 树 中 ， 并 首先 在 掩 码 树 中 查找 是 否 存 在 与 
这 个 掩 码 相同 的 项 ， 如 果 找 到 ， 就 引用 那个 项 。 如 果 在 掩 码 树 中 找到 或 者 将 这 个 掩 码 加 入 到 
掩 码 树 中 ， 还 要 再 检查 一 下 掩 码 树 中 的 那个 项 是 否 真 等 于 genmask 的 值 。 如 果 等 于 ， 则 
genmask 指 针 就 被 替代 为 掩 码 树 中 那个 掩 码 的 指针 。 

图 20-9 显 示 了 route _ output 国 数 处 理 RTM ADD 和 RTM DELETE 的 下 一 部 分 。 
162-163 RTM_ADD 命 令 要 求 进 程 指定 一 个 网 关 。 
164-165 rtrequest 处 理 该 请 求 。 如 果 输 入 的 路 由 是 一 个 主机 路 由 ， 则 netmask 指 针 可 
以 为 室 。 如 果 一 切 OK， 则 saved_nzt 返 回 新 的 路 由 表 项 的 指针 。 
166-172 将 rt_metrics 结 构 从 调用 者 缓存 中 复制 到 路 由 表 项 中 。 引 用 计数 减 1， 并 且 保 
存 9enmask 指 针 (可 能 是 一 个 空 指 针 )。 
173-176 处 理 RTM_DELETE 命 令 非常 简单 ， 因 为 所 有 的 工作 都 由 rtrequest 来 完成 。 既 
然 最 后 一 个 参数 是 空 指针 ， 如 果 引 用 计数 为 0，rtrequest 就 调用 rtfree 从 路 由 表 中 删除 指 
定 的 项 (图 19-7)。 

下 一 步 的 处 理 过 程 显 示 在 图 20-10 中 ， 其 中 显示 了 RTM GET, RTM CHANGE 和 RTM LOCK 
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命令 的 公共 代码 。 
160 switch (rtm-»rtm type) ( risock.c 
161 case RTM ADD: 
162 if (gate == 0) 
163 senderr (EINVAL); 
164 error - rtrequest(RTM ADD, dst, gate, netmask, 
165 rtm-»rtm flags, &saved nrt); 
166 if (error -- 0 && saved nrt) ( 
167 rt setmetrics(rtm-»rtm inits, 
168 &rtm-»rtm rmx, &saved nrt-»rt rmx); 
169 saved nrt-»rt refcnt--; 
170 saved nrt-»rt genmask - genmask; 
171 ) 
172 break; 
173 case RTM DELETE: 
174 error - rtrequest(RTM DELETE, dst, gate, netmask, 
175 rtm-»rtm flags, (struct rtentry **) 0); 
176 break; 
rtsock.c 
图 20-9 route _ output Kr: 进程 RTM ADD 和 RTM DELETE£ 4 
rtsock.c 
177 case RTM GET: 
178 case RTM CHANGE: 
179 case RTM LOCK: 
180 rt - rtallocl(dst, 0); 
181 if {rt == 0) 
182 senderr (ESRCH) ; 
183 if (rtm-»rtm type != RTM GET) ( /* XXX: too grotty */ 
184 struct radix node *rn; 
185 extern struct radix node head *mask rnhead; 
186 if (Bcmp(dst, rt key(rt), dst-»sa len) !- 0) 
187 senderr (ESRCH); 
188 if (netmask && (rn = rn_search (netmask, 
189 mask rnhead-»rnh treetop))) 
190 netmask = (struct sockaddr *) rn-»rn. key; 
191 for (rn - rt-»rt nodes; rn; rn - rn-»rn, dupedkey) 
192 if (netmask -- (struct sockaddr *) rn-»rn mask) 
193 break; 
194 if [fn == 0) 
195 senderr (ETOOMANYREFS); 
196 rt = [struct rtentry *) rmi 
197 ) 
rtsock.c 


图 20-10 route output 畏 数 : RTM GET、RTM CHANGE 和 RTM LOCK 的 公共 处 理 部 分 


6. 查找 已 经 存在 的 项 
177-182 因为 三 个 命令 都 引用 了 一 个 已 经 存在 的 项 ， 所 以 用 rtalloc1l 函 数 来 查找 这 个 项 。 
如 果 没 有 找到 ， 则 返回 一 个 ESRCH。 

7. 不 允许 网 络 匹 配 
183-187 对 RTM_CHANGE 和 RTM_LOCK 命 令 来 说 ,一 个 网 络 匹 配 是 不 够 的 : 需要 一 个 路 由 
表 关键 字 的 精确 匹配 。 因 此 ， 如 果 dst 参 数 不 等 于 路 由 表 关 键 字 ， 这 个 匹配 就 是 一 个 网 络 匹 
配 ， 返 回 一 个 ESRCH。 
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8. 使 用 网 络 掩 码 来 查找 正确 的 项 

188-193 即使 是 一 个 精确 的 匹配 ， 如 果 存 在 网 络 掩 码 不 同 的 重复 表 项 ， 仍 然 必须 查找 正确 
的 项 。 如 果 提 供 了 一 个 netmask 参 数 ， 就 要 在 掩 码 表 中 查找 它 (mask_rnhead)。 如 果 找 到 
了 ，netmask 指 针 就 被 替代 为 掩 码 树 中 相应 掩 码 的 指针 。 检 查 重复 表 项 列表 的 每 个 叶 结 点 ， 
查找 一 个 rn_mask 指 针 等 于 netmask 的 项 。 这 个 测试 只 是 比较 指针 ， 而 不 是 指针 所 指 问 的 结 
构 。 因 为 所 有 的 掩 码 都 出 现在 捧 码 树 中 ， 并 且 每 个 不 同 的 掩 码 只 有 一 个 副本 出 现在 这 个 掩 码 
树 中 。 大 多 数 情况 下 ， 表 项 不 会 重复 ， 因 此 foz 循 环 只 执行 一 次 。 如 果 一 个 主机 路 由 项 被 修 
改 了 ， 不 应 该 提供 一 个 网 络 掩 码 ， 因 此 ，netmask 和 rn _mask 都 是 空 指针 (两 者 是 相等 的 )。 
但 是 ， 如 果 有 一 个 附带 掩 码 的 项 被 修改 了 ， 那 个 掩 码 必须 作为 netmask 参 数 提供。 

194-195 如 果 for 循 环 终止 时 没有 找到 匹配 的 网 络 掩 码 ， 就 返回 ETOOMANYREFS。 


注释 XXX 表示 这 个 函数 必须 做 所 有 的 工作 来 找到 需要 的 项 。 所 有 这 些 细节 在 其 他 一 些 
类 似 ztalloc1 的 函数 中 都 应 该 被 隐藏 ，rtalloc1 检 测 网 络 匹 配 ， 并 且 处 理 掩 码 参 数 。 


这 个 函数 的 下 一 部 分 继续 处 理 RTM_GET 命 令 ， 显 示 在 图 20-11 中 。 这 个 命令 与 


rtsock.c 
198 switch (rtm-»rtm type) ( 
199 case RTM GET: 
200 dst = rt, key(rt); 
201 gate - rt-»rt, gateway; 
202 netmask = rt mask(rt); 
203 genmask - rt-»rt genmask; 
204 if (rtm-»rtm addrs & (RTA IFP | RTA IFA)) ( 
205 lf (fp s rt-»xt Ifo) + 
206 ifpaddr = ifp-»if addrlist-»ifa, addr; 
207 ifaaddr - rt-»rt ifa-»ifa addr; 
208 rtm-»rtm index - ifp-»if index; 
209 ) else ( 
210 ifpaddr = 0; 
211 ifaaddr s 0; 
212 ) 
213 } 
214 len = rt, msg2(RTM GET, &info, (caddr t) 0, 
215 (struct walkarg *) 0); 
216 if (len » rtm-»rtm msglen) ( 
217 struct rt msghdr *new rtm; 
218 R Malloc(new rtm, struct rt msghdr *, len); 
219 if (new rtm == 0) 
220 | senderr (ENOBUFS); 
221 Bcopy(rtm, new rtm, rtm-»rtm msglen); 
222 Free(rtm); 
223 rtm - new rtm; 
224 ) 
225 (void) rt msg2(RTM GET, &info, (caddr t) rtm, 
226 (struct walkarg *) 0); 
2417 rtm-»rtm flags - rt-»rt flags; 
228 rtm-»rtm rmx = rt-»rt rmx; 
229 rtm-»rtm addrs = info.rti. addrs; E 
230 break; 
rtsock.c 


图 20-11 route output Kýr: RTM_GET 处 理 过 程 
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route_output 支 持 的 其 他 命令 的 区 别 在 于 它 能 够 返回 比 传 递 给 它 的 数据 更 多 的 数据 。 例 如 ， 
只 需要 输入 一 个 插口 地 址 结构 ， 即 目的 地 址 ， 但 至 少 返 回 两 个 插口 地 址 结构 ， 即 目的 地 址 和 它 
的 网 天。 参看 图 20-6， 这 就 意味 着 为 n_copydata 复 制 数据 所 分 配 的 缓存 可 能 需要 扩充 大 小 。 

9. 返回 目的 地 址 、 网 关 和 掩 码 
198-203 rti info 数 组 中 存储 了 四 个 指针 : dst、gate、netmask 和 genmask。 后 两 
个 可 能 是 空 指针 。info 结 构 中 的 这 些 指针 指向 进程 将 要 返回 的 各 个 插口 地 址 结构 。 

10. 返回 接口 信息 
204-213 进程 可 以 在 rtm flags 位 掩 码 中 设置 RTA IFP 和 RTA IFA 掩 码 。 如 果 设 置 了 一 
项 或 两 项 ， 就 表示 进程 想 要 接收 这 个 路 由 表 项 所 指示 的 i1faddr 结 构 : 接口 的 链 路 层 地 址 (由 
rt _ifp->addrlist 指 问 ) 以 及 这 个 路 由 表 项 的 协议 地 址 (由 rt ifa->ifa addr 指 向 ) 的 内 
容 。 接 口 索引 也 会 被 返回 。 

11. 构造 应 答 报 文 
214-224 将 第 三 个 指针 置 为 空 ， 调 用 zt_msg2 来 计算 相应 于 RTM_GET 的 选 路 报 文 和 info 
结构 所 指向 的 地 址 的 长 度 。 如 果 结 果 报 文 的 长 度 超过 了 输入 报 文 的 长 度 ， 就 会 分 配 一 个 新 的 
缓存 ， 输 入 报 文 被 复制 到 新 的 缓存 中 ， 老 的 缓存 被 释放 ，rtm 被 重新 设置 为 指向 新 缓存 。 
225-230 有 再 次 调用 xzt_msg2， 这 次 调用 时 第 三 个 指针 非 空 ， 因 为 在 缓存 中 已 经 构造 了 一 个 
结果 报 文 。 这 次 调用 填 入 zt_msghdzr 结 构 的 最 后 三 个 成 员 项 。 

图 20-12 显 示 了 RTM_CHRANGE 和 RTM _ LOCK 命令 的 处 理 过 程 。 

12. 改变 网 关 
231-233 如 末 进 程 传递 了 一 个 gate 地 址 ，rt_setgate 就 被 调用 来 改变 这 个 路 由 表 项 的 网 关 。 

13. 查找 新 的 接口 
234-244 新 的 网 关 ( 如 果 被 改变 ) 可 能 也 需要 rt_ifp 和 rt_ifa 指 针 。 进 程 可 以 通过 传递 一 
个 ifpaddr 插 口 地 址 结构 或 者 一 个 ifaaddr 插 口 地 址 结构 来 说 明 这 些 新 的 值 。 先 看 第 一 个 ， 
然后 再 看 第 二 个 。 如 果 进 程 两 个 结构 都 没 传递 ，rt_ifp 和 rt_ifa 指 针 就 会 被 忽略 。 

14. 检验 接口 是 否 改变 
245-256 如 未 找到 了 一 个 接口 (ifa 非 空 )， 则 该 路 由 的 现 有 rt_ifa 指 针 要 和 新 的 值 进行 比 
较 。 如 末 数 值 已 经 改变 了 ， 则 两 个 针对 rt_ifp 和 rt_ifa 的 新 值 需 要 存储 到 路 由 表 的 表 项 中 。 
在 这 样 做 之 前 ， 先 要 用 RTM_DELETE 命 令 调 用 该 接口 的 请 求 函 数 (如 果 定 义 了 该 函数 的 话 )。 这 
个 删除 动作 是 必需 的 ， 因 为 从 一 种 类 型 的 网 络 到 另 一 种 类 型 的 网 络 ， 它 们 的 链 路 层 信 息 可 能 会 
有 很 大 的 差别 (比如 说 从 一 个 X.25 网 络 改变 成 以 太 网 的 路 由 )， 同 时 我 们 还 必须 通知 输出 例 程 。 

15. 更 新 度量 
257-258 rt setmetrics 修 改 路 由 表 项 的 度量 。 

16. 调用 接口 请 求 男 数 
259-260 如 霖 定义 了 一 个 接口 请 求 函数 ， 它 就 会 和 RTM_ADD 命 令 一 起 被 调用 。 

17. 保存 克隆 生成 的 扼 码 
261-262 如 采 进 程 指定 了 genmask 参 数 ， 就 将 在 图 20-8 中 获得 的 掩 码 的 指针 保存 在 
rt genmask 中 。 

18. 修改 加 锁 度量 的 位 掩 码 
266-270 RTM _ LOCK 命令 修改 保存 在 rt rmx.rmx locks 中 的 位 掩 码 。 图 20-13 显 示 了 这 
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个 位 掩 码 中 不 同位 的 值 ， 每 个 度量 一 个 值 。 





rtsock.c 
231 case RTM CHANGE: 
232 if (gate && rt setgate(rt, rt key(rt), gate)) 
233 senderr (EDQUOT); 
234 /* new gateway could require new ifaddr, ifp; flags may also be 
235 different; ifp may be specified by 11 sockaddr when protocol 
236 address is ambiguous */ 
237 if (ifpaddr && (ifa - ifa ifwithnet(ifpaddr)) && 
238 (ifp = ifa-»ifa ifp)) 
239 ifa - ifaof ifpforaddr(ifaaddr ? ifaaddr : gate, 
240 ifp); 
241 else if ((ifaaddr && (ifa = ifa ifwithaddr(ifaaddr))) |l 
242 (ifa - ifa ifwithroute(rt-»rt flags, 
243 rt key(rt), gate))) 
244 ifp s ifa-»ifa ifp; 
245 if (ifa) í 
246 struct ifaddr *oifa = rt-»rt ifa; 
247 if (oifa !s ifa) ( 
248 if (oifa && oifa-»ifa rtrequest) 
249 oifa-»ifa rtrequest (RTM DELETE, 
250 rt, gate); 
251 IFAFREE(rt-»rt ifa); 
252 Pt-5rft 1f4 = Lfas 
253 ifa-»ifa refcnt-s-*; 
254 rt-»rt ifp = ifp; 
255 ) 
256 ) 
257 rt setmetrics(rtm-»rtm inits, &rtm->rtm_rmx, 
258 &rt-»rt rmx); 
259 if (rt-»rt ifa && rt-»rt ifa-»ifa rtrequest) 
260 rt-»rt ifa-»ifa rtrequest(RTM ADD, rt, gate); 
261 if (genmask) 
262 rt-»rt, genmask - genmask; 
263 A 
264 * Fall into 
265 xj 
266 case RTM ,LOCK: 
267 rt-»rt rmx.rmx locks &- ^(rtm-»rtm inits); 
268 rt-»rt rmx.rmx locks |- 
269 (rtm-»rtm inits & rtm-»rtm rmx.rmx locks); 
270 break; 
271 } 
272 break; 
273 default: 
274 senderr (EOPNOTSUPP) ; 
275 ) 
rtsock.c 





[20-12 route output 国 数 : RTM CHANGE 和 RTM _ LOCK 处 理 过 程 


路 由 表 项 中 rt_metrics 结 构 的 rmx_locks 成 员 是 告诉 内 核 哪 些 度量 不 要 管 的 位 掩 码 。 


即 ，rmx_locks 指 定 的 那些 度量 内 核 不 能 修改 。 内 核 唯 一 有 


BE 使 用 这 些 度 量 的 地 方 是 和 TCP 一 


起 ， 如 图 27-3 所 示 。rmx -Pksent 度 量 不 能 被 初 如 化 或 加 倘 ， 但 是 内 核 也 从 来 没有 3 引用 或 修 


改过 这 个 成 员 。 


进程 发 出 的 报 文中 的 rtm inits 值 是 一 个 位 掩 码 ， 指 出 哪些 度量 刚刚 被 
rt setmetrics 初 始 化 过 。 报 文中 的 rtm rmx.rmx locks 值 是 一 个 指出 哪些 度量 现在 应 
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RTV_MTU 初始 化 或 者 锁 住 rmx_mtu 
RTV HOPCOUNT 初始 化 或 者 锁 住 rmx_hopcount 


RTV EXPIRE 初始 化 或 者 锁 住 rmx_expire 
RTV RPIPE 初始 化 或 者 锁 住 rmx_recvpipe 
RTV SPIPE 初始 化 或 者 锁 住 rmx_sendpipe 
RTV SSTHRESH 初始 化 或 者 锁 住 rmx_ssthresh 
RTV RTT 初始 化 或 者 锁 住 rmx_rtt 

RTV RTTVAR 初始 化 或 者 锁 住 rmx_rttvar 





图 20-13 对 度量 初始 化 或 加 锁 的 常量 


该 加 锁 的 位 掩 码 。rt_rmx.rmx_locks 的 值 是 一 个 指出 路 由 表 中 哪些 度量 当前 被 加 锁 的 位 掩 
码 。 首 先 ， 任 何 将 要 初始 化 的 位 (ztm_inits) 都 要 解锁 。 任 何 既 被 初始 化 (ztm_inits) 又 被 
加 锁 (rtm _rmx.rmx locks) 的 位 都 必须 加 锁 。 
273-275 这 个 default 是 用 于 图 20-9 开 始 的 switch 语 句 ， 用 来 处 理 进程 发 出 的 报 文中 除 
了 所 支持 的 五 个 命令 以 外 的 其 他 选 路 命令 。 

route output 的 最 后 一 部 分 显示 在 图 20-14 中 ， 用 来 发 送 应 答 给 raw_input。 


rtsock.c 
276 flush: 
2417 if (rtm) ( 
278 if (error) 
279 rtm-»rtm errno = error; 
280 else 
281 rtm-»rtm flags |- RTF. DONE; 
282 ) 
283 ir TE] 
284 rtfree(rt); 
285 ( 
286 struct rawcb *rp = 0; 
287 1" 
288 * Check to see if we don't want our own messages. 
289 "y 
290 if ((so->so_options & SO_USELOOPBACK) == 0) { 
291 if (route cb.any count <= 1) { 
292 if (rtm) 
293 Free(rtm); 
294 m freem(m); 
295 return (error); 
296 ) 
297 /* There is another listener, so construct message */ 
298 rp = sotorawcb(so); 
299 ) 
300 if (rtm) ( 
301 m copyback(m, 0, rtm-»rtm msglen, (caddr t) rtm); 
302 Free(rtm); 
303 ) 
304 if (rp) 
305 rp-»rcb proto.sp family - 0; /* Avoid us */ 
306 if (dst) 
307 route protc.sp protocol - dst-»sa family; 
308 raw input(m, &route proto, &route src, &route dst); 


20-14. route output Kğ: 将 结果 传递 给 raw_input 
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309 if (rp) 


310 rp-»rcb proto.sp family - PF ROUTE; 
324 ) 
312 return (error); 


313 F 
rtsock.c 


图 20-14 (fx) 


19. 返回 错误 或 OK 
276-282 flush 是 该 国 数 开头 定义 的 sendqerr 宏 所 跳 转 的 标号 。 如 果 发 生 了 一 个 错误 ， 错 
误 就 在 rtm_errno 成 员 中 返回 ， 否则， 就 设置 RTF_DONE 标 志 。 

20. 释放 拥有 的 路 由 
283-284 如 果 拥 有 一 条 路 由 ， 就 要 被 释放 。 如 果 找 到 ， 在 图 20-10 的 开始 位 置 对 rtalloc1l 
的 调用 拥有 这 条 路 由 。 

21. 没有 进程 接收 报 文 
285-296 SO USELOOPBACK 插 口 选项 的 默认 值 为 真 ， 表 示 发 送 进程 将 会 收 到 它 发 送 给 选 路 
插口 的 每 个 选 路 报 文 的 一 个 副本 (如 果 发 送 者 不 接收 报 文 的 副本 ， 它 就 不 能 收 到 RTM_GET 返 回 
的 任何 信息 )。 如 果 没 有 设置 这 个 选项 ， 并 且 选 路 插口 的 总 数 小 于 或 等 于 1， 就 没有 其 他 进程 
接收 报 文 ， 并 且 发 送 者 不 想 要 一 个 报 文 副 本 。 缓 存 和 mbuf 链 都 会 被 释放 ， 该 函数 返回 。 

22. 没有 环 回复 制 报 文 的 其 他 监听 者 
297-299 至 少 有 一 个 其 他 的 监听 者 而 不 是 发 送 进程 不 想 要 一 个 报 文 副本 。 指 针 zp 默 认 是 空 ， 
被 设置 成 指 癌 发 送 者 的 选 路 控制 块 ， 也 用 来 作为 发 送 者 不 想 要 报 文 副本 的 一 个 标志 。 

23. 将 缓存 转换 成 mbuf 链 
300-303 缓存 被 转换 成 一 个 mbuf 链 (图 20-6)， 然 后 释放 缓存 。 

24. 避免 环 回 复制 
304-305 如 果 设 置 了 rp， 则 某 个 其 他 的 进程 可 能 想 要 报 文 ， 但 是 发 送 者 不 想 要 副本 。 发 送 者 
的 选 路 控制 块 的 sp_family 成 员 被 临时 设置 为 0， 但 是 报 文 的 sp_family(route_proto 结 构 ， 
显示 在 图 19-26 中 ) 有 一 个 PF_ROUTE 的 族 。 这 个 技巧 防止 raw_input 将 结果 的 一 个 副本 传递 给 
发 送 进程 ， 因 为 raw_input 不 会 将 副本 传递 给 sp_family 为 0 的 任何 插口 。 

25. 设置 选 路 报 文 的 地 址 族 
306-308 如 果 dst 是 一 个 非 空 的 指针 ， 则 那个 插口 地 址 结构 的 地 址 族 成 为 选 路 报 文 的 协议 。 
对 于 Internet 协 议 ， 这 个 值 将 是 PF_INET。 通 过 raw_input ,一 个 副本 被 传递 给 合适 的 监听 者 。 
309-313 如 果 调 用 进程 的 sp_family 成 员 被 临时 设置 为 0， 它 就 被 复位 成 正常 值 PF_ROUTE。 


20.6 rt xaddrsň ğı 


在 将 来 自 进 程 的 选 路 报 文 从 mbuf 链 复制 到 一 个 缓存 以 及 将 来 自 进程 的 位 掩 码 
(rtm addrs) 复 制 到 rt addrinfo 结 构 的 rti info 成 员 之 后 ， 只 从 route output 中 调 
用 一 次 rt xaddrs 团 数 (图 20-8)。rt xaddrs 的 目的 是 获取 这 个 位 掩 码 ， 并 设置 rti info 
数组 的 指针 ， 使 之 指 疝 缓存 中 相应 的 地 址 。 图 20-15 显 示 了 这 个 函数 。 

330-340 指针 数组 被 设置 成 9， 因此 ， 所 有 在 位 掩 码 中 不 出 现 的 地 址 结构 的 指针 都 将 是 空 。 
341-347 测试 位 掩 码 中 8 个 (RTM_MRAX) 可 能 位 的 每 一 位 (如 东 设 置 )， 将 相应 于 插口 地 址 结构 
的 一 个 指针 存 到 rti_info 数 组 中 。ADVANCE 宏 以 插口 地 址 结构 的 sa_len 字 有 段 为 参数 ， 上 
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— rtsock.c 
330 #define ROUNDUP (a) \ 
331 ((a) > 0 ? (1 + (((a) - 1) | (sizeof(long) - 1))) : sizeof (long)) 
332 #define ADVANCE (x, n) (x += ROUNDUP ( (n) -»sa, len)) 
333 static void 
334 rt xaddrs(cp, cplim, rtinfo) 
335 caddr t cp, cplim; 
336 struct rt addrinfo *rtinfo; 
337 1 
338 struct sockaddr *sa; 
339 int i; 
340 bzero(rtinfo-»rti info, sizeof(rtinfo-»rti. info)); 
341 for (i = 0; (i < RTAX MAX) && (cp < cplim); i++) ( 
342 if ((£trtinfó-»rti.addrs & (1 gë ij} == 0) 
343 continue; 
344 rtinfo-»rti. info[(i] = sa = (struct sockaddr *) cp: 
345 ADVANCE (cp, sa); 
346 } 
dh rtsock.c 


图 20-15 rt xaddrsrAZ&k: 将 指针 填 人 zti_info 数 组 


20.7 rt setmetricsM ži 


这 个 函数 在 route_output 中 调用 了 两 次 : 增加 一 条 新 路 由 时 和 改变 一 条 已 经 存在 的 路 
由 时 。 来 自 进 程 的 选 路 报 文 的 rtm_inits 成 员 指 定 了 进程 想 要 初始 化 rtm_rmx 数 组 中 的 哪 
些 度 量 。 位 掩 码 中 位 的 值 显示 在 图 20-13 中 。 

请 注意 ，rtm_addrs 和 rtm_inits 都 是 来 自 进 程 的 报 文中 的 位 掩 码 ， 前 者 指定 了 接 下 
来 的 插口 地 址 结构 ， 而 后 者 指定 哪些 度量 将 被 初始 化 。 为 了 市 省 空间 ， 在 rtm_addrs 中 没有 
设置 位 的 插口 地 址 结构 也 不 会 出 现在 选 路 报 文中 。 但 是 整个 rt_metrics 总 是 以 定 长 的 
rt_msghdr 结 构 的 形式 出 现 一 一 在 rtm_inits 中 没有 设置 位 的 数组 成 员 将 被 忽略 。 

图 20-16 显 示 了 rt setmetricsiKZ., 


。 rtsock.c 
314 void 
315 rt setmetrics(which, in, out) 
316 u long which; 
317 struct rt metrics *in, *out; 
318 ( 
319 #define metric(f, e) if (which & (f)) out-»e = in-»e; 
320 metric(RTV RPIPE, rmx recvpipe); | 
JAL metric(RTV SPIPE, rmx sendpipe); 
322 metric(RTV SSTHRESH, rmx ssthresh); 
323 metric(RTV RTT, rmx rtt); 
324 metric(RTV RTTVAR, rmx rttvar); 
325 metric(RTV HOPCOUNT, rmx hopcount); 
326 metric(RTV MTU, rmx mtu); 
327 metric(RTV EXPIRE, rmx expire); 
328 #undef metric 
vd rtsock.c 


图 20-16 rt _setmetrics 函 数 : 设置 rt_metrics 结 构 中 的 成 员 
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314-318 which 参数 总 是 进程 的 选 路 报 文 的 ztm_inits 成 员 。 inj Ert 
metrics 结 构 ， 而 out 指 向 将 要 创建 或 修改 的 路 由 表 项 的 rt_metrics 结 构 。 

319-329 闹 试 位 掩 码 中 8 位 的 每 一 位 ， 如 果 该 位 被 设置 ， 就 复制 相应 的 度量 。 请 注意 当 使 用 
RTM_ADD 创 建 一 个 新 的 路 由 表 项 时 ，route output 调 用 了 rtrequest， 后 者 将 整个 路 由 表 
项 设置 为 0( 图 19-9)。 因 此 ， 在 选 路 报 文中 ， 进 程 没 有 指定 的 任何 度量 ， 其 默认 值 都 是 0。 


20.8 raw input 函数 


丫 一 个 进程 发 送 的 所 有 选 路 报 文 一 一 包括 由 内 核 产生 的 和 由 进程 产生 的 一 一 都 被 传递 给 
raw_input， 后 者 选择 接收 这 个 报 文 的 进程 。 图 18-11 总 结 了 调用 raw_input 的 四 个 函数 。 

当 创 建 一 个 选 路 插口 时 ， 族 总 是 PF_ROUTE， 而 协议 (socket 的 第 三 个 参数 ) 可 能 为 0， 表 
未 进程 想 要 接收 所 有 的 选 路 报 文 ; 或 者 是 一 个 如 同 AF_INET 的 值 ， 限 制 插口 只 接收 包含 指定 
协议 族 地 址 的 报 文 。 为 每 个 选 路 插口 创建 一 个 选 路 控制 块 (20.3 节 )， 这 两 个 值 分 别 存 储 在 
rcb_proto 结 构 的 sp_family 和 sp protocol nH, 

图 20-17 显 示 了 了 raw _ input 国 数 。 

51] void 

52 raw input(m0, proto, src, dst) 

53 struct mbuf *m0; 


54 struct sockproto *proto; 
55 struct sockaddr *src, *dst; 





raw usrreq.c 


56 ( 

57 struct rawcb *rp; 

58 struct mbuf *m - m0; 

59 int Sockets - 0; 

60 struct socket *last; 

61 last = 0; 

62 for (xp = rawcb.rcb next; rp != &rawcb; rp = fp-»rcb.next) ( 
63 if (rp-»rcb proto.sp family !- proto-»sp family) 
64 continue; 

65 if (rp-»rcb proto.sp protocol && 

66 rp-»rcb.proto.sp.protocol !z proto-»sp.protocol) 
67 continue; 

68 p 

69 * We assume the lower level routines have 

70 * placed the address in a canonical format 

73. * suitable for a structure comparison. 

72 * 

73 * Note that if the lengths are not the same 

74 * the comparison will fail at the first byte. 
75 */ 

76 $define equal(al, a2) \ 

77 (becmp((caddr. t) (a1), (caddr t) (a2), al-»sa len) == 0) 
78 if (rp-»rcb laddr && !equal(rp-»rcb laddr, dst)) 
79 continue; 

80 if (rp-»rcb faddr && !equal(rp-»rcb faddr, src)) 
81 continue; 

82 lif (last) { 

83 struct mbar *n; 

84 if (ñ = m copy(m, 0, (int) M COPYALLD)) ( 

85 if (sbappendaddr(&last-»so rcv, src, 

86 n, (struct mpuf +) 09 == 0) 


图 20-17 zaw_input 国 数 : 将 选 路 报 文 传递 给 0 个 或 多 个 进程 
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87 /* should notify about lost packet */. 
88 m freem(í(n); 

89 else ( 

90 sorwakeup(last); 

91 sockets--; 


93 ) 

94 ) 

95 last - rp-»rcb socket; 

96 ) 

97 if (last) [f 

98 if (sbappendaddr(&last-»so rcv, src, 
99 m, (atruct mbuf *) 0) == 0) 
100 m freem(m); 

101 else ( 

102 sorwakeup(last); 

103 sockets++; 

104 } 

105 } else 

106 m freem(m); 


raw usrreq.c 


图 20-17 (4%) 


51-61 在 我 们 所 看 到 的 四 个 对 raw_input 的 调用 中 ，proto、src 和 dst 参 数 指向 三 个 全 
局 变量 route proto, route src 和 route dst, 这些 变量 都 如 同 图 19-26 所 示 的 那样 被 
声明 和 初始 化 。 

1. 比较 地 址 族 和 协议 
62-67 for 循环 遇 历 每 个 选 路 控制 块 来 查找 一 个 匹配 。 控 制 块 里 的 族 (一 般 是 PF_ROUTE) 必 
须 与 sockproto 结 构 的 族 相 匹配 ， 否 则 这 个 控制 块 就 被 略 过 。 接 下 来 ， 如 果 控 制 块 里 的 协议 
(socket 的 第 三 个 参数 ) 非 空 ， 它 必须 匹配 sockproto 结 构 的 族 ， 否则 ， 这 个 报 文 被 略 去 。 
因此 ， 以 0 协议 创建 的 一 个 选 路 插口 的 进程 将 收 到 所 有 的 选 路 报 文 。 

2. 比较 本 地 的 和 外 部 的 地 址 
68-81 如 有 果 指 定 了 的 话 ， 这 两 个 测试 会 比较 控制 块 里 的 本 地 地 址 和 外 部 地 址 。 目 前 ， 进 程 
不 能 设置 控制 块 的 rcb_laddr 或 者 rcb_faddr 成 员 。 一 般 来 说 ， 进 程 使 用 bind 设 置 前 者 ， 
用 connect 设 置 后 者 ， 但 对 于 Net/3 中 的 选 路 插口 这 是 不 可 能 的 。 作 为 替代 ， 我 们 将 看 到 
route usrreq 将 插口 固定 地 连接 到 route src 插 口 地 址 结构 ， 这 是 可 行 的 ， 因 为 它 总 是 
这 个 函数 的 src 参 数 。 

3. 将 报 文 添加 到 插口 的 接收 缓存 中 
82-107 如 末 last 非 空 ， 它 指 同 最 近 看 到 的 应 该 接收 这 个 报 文 的 socket 结 构 。 如 果 这 个 变 
量 非 空 ， 就 使 用 m_copy 和 sbappendaddr 将 这 个 报 文 的 一 个 副本 添加 到 那个 插口 的 接收 组 
存 中 ， 并 且 等 待 这 个 接收 缓存 的 任何 进程 都 会 被 唤醒 。 然 后 ，1Last 被 设置 成 指向 在 以 前 的 测 
试 中 刚刚 匹配 的 插口 。 使 用 last 是 为 了 在 只 有 一 个 进程 接收 报 文 的 情况 下 避免 调用 
m_copy( 一 个 代价 昂 贯 的 操作 )。 

如 来 有 NN 个 进程 接收 报 文 ， 那 么 前 N 一 1 个 接收 一 个 报 文 副本 ， 最 后 一 个 进程 收 到 的 是 这 个 
报 文本 身 。 

在 这 个 图 数 里 递增 的 socket 变 量 并 疫 有 被 用 到 。 因 为 只 有 当 报 文 被 传递 给 一 个 进程 后 它 

会 被 递增 ， 所 以 ， 如 果 在 函数 的 结尾 这 个 变量 的 值 是 0， 就 表示 没有 进程 接收 该 报 文 (但 是 
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变量 值 没 有 在 任何 地 方 保存 )。 
20.9 route usrreq ži 


route_usrreq 是 选 路 协议 的 用 户 请 求 函 数 。 它 被 不 同 的 操作 调用 。 图 20-18 显 示 了 这 个 
国 数 。 


TETN rtsock.c 
65 route_usrreq(so, req, m, nam, control) 
66 struct socket *so; x 
67 int req; 
68 struct mbuf *m, *nam, *control; 
69 ( 
70 int error = 0; 
71 struct rawcb *rp - sotorawcb(so); 
72 inc S; 
73 if (req -- PRU ATTACH) ( 
74 MALLOC (rp, struct rawcb *, sizeof(*rp), M PCB, M WAITOK); 
75 if (so-»so  pcb = (caddr t) rp) 
76 bzero(so-»so pcb, sizeof(*rp)); 
71 ) 
78 if (req == PRU DETACH && rp) ( 
79 int af - rp-»rcb proto.sp protocol; 
80 if (af == AF INET) 
81 route_cb.ip_count--; 
82 else if (af == AF_NS) 
83 route cb.ns, count--; 
84 else if (af -- AF ISO) 
85 route cb.iso count--; 
86 route cb.any. count--; 
87 ) 
88 s = splnet(); 
89 error = raw usrreq(so, req, m, nam, control); 
90 rp = sotorawcb (so); 
91 if (req -- PRU ATTACH && rp) ( 
92 int af = rp-»rcb proto.sp protocol; 
93 if (error) ( 
94 free((caddr t) rp, M PCB); 
95 splx (s); 
96 return (error); 
97 } 
98 if (af == AF_INET) 
99 route_cb.ip_count++; 
100 else if (af == AF_NS) 
101 route cb.ns, count-**; 
102 . else if (af == AF. ISO) 
103 route cb.iso, count-s-*; 
104 route cb.any. count--*; 
105 rp-»rcb faddr - &route src; 
106 soisconnected(so); 
107 So-»so options |= SO USELOOPBACK; 
108 ) 
109 splx(s); 
110 return (error); 
111 } 
rtsock.c 





图 20-18 route usrred 国 数 : 处 理 PRU_xxx 请 求 
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1. PRU ATTACH; 分 配 控制 块 
64-77 当 进 程 调用 socket 时 ， 就 会 发 出 PRU_RATTRACH 请 求 。 为 选 路 控制 块 分 配 内 存 。 
MRLLOC 返 回 的 指针 保存 在 socket 结 构 的 so_pcb 成 员 中 。 如 果 分 配 了 内 存 ，zawcb 结 构 被 
设置 成 0。 

2.PRU DETACH; 计数 器 递减 
78-87 close 系统 调用 发 出 PRU_DETRCH 请 求 。 如 果 socket 结 构 指向 一 个 协议 控制 块 ， 
route_cb 结 构 的 计数 器 中 有 两 个 被 减 1: 一 个 是 any_count; 另 一 个 是 基于 该 协议 的 计 
DEC 

3. 处 理 请 求 
88-90 国 数 raw_usrred 被 调用 来 进一步 处 理 PRU_xxx 请 求 。 

4. 计数 如 递增 
91-104 如果 请 求 是 PRU_ATTACH， 并 且 插 口 指 同一 个 选 路 控制 块 ， 就 要 检查 
raw_usrtedqg 和 是 否 返 回 一 个 错误 。 然 后 ，zoute_cb 结 构 的 计数 右 中 的 两 个 被 递增 : 一 个 是 
any_count ， 男 一 个 是 基于 该 协议 的 计数 器 。 

5. 连接 插口 
105-106 选 路 控制 块 里 的 外 部 地 址 被 设置 成 route_src。 这 将 永久 地 连接 到 新 的 插口 来 接 
收 PF_ROUTE 族 的 选 路 报 文 。 

6. 默认 情况 下 使 能 SO_USELOOPBACK 
107-111 使 能 SO_USELOOPBACK 插 口 选 项 。 这 是 一 个 默认 使 能 的 插口 选项 一 一 其 他 所 有 的 
选项 默认 都 被 禁止 。 


20.10 raw usrredg 国 数 


raw_usrredq 完 成 在 选 路 域 中 用 户 请 求 处 理 的 大 部 分 工作 。 在 上 一 节 中 它 被 
route usrreq 函 数 所 调用 。 用 户 请 求 的 处 理 被 划分 成 这 两 个 钞 数 ， 是 因为 其 他 的 一 些 协议 
(例如 OSI CLNP) 调 用 raw_usrreq 而 不 是 route usrreq。raw usrred 并 不 是 想 要 成 为 
一 个 协议 的 pr _usrzreg 国 数 ， 相 反 ， 它 是 一 个 被 不 同 的 pz _uszrreg 国 数 调用 的 公共 的 子 
例 程 。 

图 20-19 显 示 了 raw_uszrredg 畏 数 的 开始 和 结尾 ， 其 中 的 switch 语 句 体 在 该 图 后 面 的 图 
中 单独 讨论 。 

1. PRU_CONTROD 请 求 是 不 合法 的 
119-129 PRU_CONTROL 请 求 来 自 ioct1 系 统 调用 ， 在 路 由 选择 域 中 不 被 支持 。 

2. 控制 信息 不 合法 
130-133 如 果 进 程 传递 控制 信息 (使 用 sendmsg 系 统 调用 )， 就 会 返回 一 个 错误 ， 因 为 路 由 
选择 域 中 不 使 用 这 个 可 选 的 信息 。 

3. 插口 必须 有 一 个 控制 块 
134-137 如 果 socket 结 构 没 有 指 疝 选 路 控制 块 ， 就 返回 一 个 错误 。 如 果 创 建 了 一 个 新 的 
插口 ， 调 用 者 ( 即 route_usrreq) 有 责任 在 调用 这 个 函数 之 前 分 配 这 个 控制 块 ， 并 且 将 指针 
保存 在 so_pcb 成 员 中 。 

262-269 这 个 switch 语 句 的 default 子 句 处 理 case 子 句 没 有 处 理 的 两 个 请 求 : PRU BIND 
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和 PRU_CONNECT。 这 两 个 请 求 的 代码 提供 过 ， 但 在 Net/3 中 被 注释 掉 了 。 因 此 ， 如 果 在 一 个 
选 路 插口 上 发 出 bindq 或 connect 系 统 调用 ， 就 会 引起 一 个 内 核 的 告警 (panic)。 这 是 一 个 程序 
错误 (bug)。 幸 运 的 是 创建 这 种 类 型 的 插口 需要 有 超级 用 户 的 权限 。 





raw usrrEeq.c 
119 int E " 


120 raw usrreq(so, req, m, nam, control) 
121 struct socket *so; 


122 int req; 

123 struct mbuf *m, *nam, *control; 

124 ( 

125 struct rawcb *rp - sotorawcb(so); 
126 int error = 0; 

127 int len; 

128 if (req -- PRU CONTROL) 

129 return (EOPNOTSUPP); 

130 if (control && control-»m len) ( 
131 error - EOPNOTSUPP; 

132 goto release; 

133 ) 

134 if (xp == 0) ( 

135 error - EINVAL; 

136 goto release; 

137 ) 

138 switch (req) ( 


oe ERNST. c coles ee 





262 default: 

263 panic("raw usrreq"); 
264 ) 

265 release: 

266 if (m t= NULL) 

267 m freem(m); 

268 return (error); 

269 ) 





raw_usrreq.c 


20-19 raw usrreg 团 数 体 


我 们 现在 讨论 单个 case 语 句 。 图 20-20 显 示 了 对 PRU_ATTACH 和 PRU_DETACH 请 求 的 


处 理 。 
139-148 PRU_ATTACH 请 求 是 socket 系统 调 用 的 一 个 结果 。 一 个 选 路 插口 只 能 由 一 个 超 
级 用 户 的 进程 创建 。 


149-150 函数 raw_attach( 图 20-24) 将 控制 块 链 接 到 双 癌 链接 列表 中 。nam 参 数 是 
socket 的 第 三 个 参数 ， 存 储 在 控制 块 中 。 
151-159 PRU_DETACH 是 由 close 系 统 调用 发 出 的 请 求 。 对 一 个 空 的 rp 指针 的 测试 是 多 余 
的 ， 因 为 在 switch 语 句 之 前 已 经 进行 过 这 个 测试 了 。 
160-161 raw_detach( 图 20-25) 从 双向 链接 表 中 删除 这 个 控制 块 。 

图 20-21 显 示 了 PRU_CONNECT2、PRU_DISCONNECT 和 PRU_SHUTDOWN 请 求 的 处 理 。 
186-188 PRU CONNECT2 请 求 来 自 sSocketpair 系 统 调用 ， 在 路 由 选择 域 中 不 被 支持 。 
189-196 因为 一 个 选 路 插口 总 是 连接 的 (图 20-18)， 所 以 PRU_DISCONNECT 请 求 在 PRU_DETACH 请 
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raw usrreq.c 
139 人 
140 * Allocate a -raw control block and fill in the 
141 * necessary info to allow packets to be routed to 
142 * the appropriate raw interface routine. 
143 uii 
144 case PRU ATTACH: 
145 if ((so-»so state & SS PRIV) == 0) { 
146 error - EACCES; 
147 break; 
148 ) 
149 error - raw attach(so, (int) nam); 
150 break; 
151 /* 
152 * Destroy state just before socket deallocation. 
153 * Flush data or not depending on the options. 
154 i 
155 case PRU_DETACH: 
156 if (xp == 0) ( 
197 error - ENOTCONN; 
158 break; 
159 ) 
160 raw detach(rp); 
161 break; 
raw usrreq.c 


图 20-20 raw usrreqtHA2Zi: PRU_ATTACH 和 PRU _DETACH 请 求 


求 之 前 由 close 发 出 。 播 口 必须 已 经 和 一 个 外 部 地 址 相连 接 ， 这 对 于 一 个 选 路 插口 来 说 总 是 
成 立 的 。raw disconnect 和 soisdisconnected 完 成 这 个 处 理 。 

197-202 当 参 数 指定 在 这 个 插口 上 没有 更 多 的 写 操作 时 ，shutdown 系 统 调 用 发 出 
PRU SHUTDOWN 请 求 。socantsendmore 禁 目 以 后 的 写 操作 ，。 


raw usrreq.c 
186 case PRU CONNECT2: 
187 error - EOPNOTSUPP; 
188 goto release; 
189 case PRU DISCONNECT: 
190 lI (rp-»rcb faddr se 0) t 
191 error - ENOTCONN; 
192 break; 
193 } 
194 raw_disconnect (rp); 
195 soisdisconnected (so); 
196 break; 
197 kai 
198 * Mark the connection as being incapable of further input. 
199 if 4 
200 case PRU SHUTDOWN: 
201 socantsendmore(so); 
202 break; E 


图 20-21 raw usrreqrK Zi: PRU CONNECT2, PRU DISCONNECT 和 PRU_SHUTDOWN 请 求 


对 一 个 选 路 插口 最 常见 的 请 求 : PRU SEND, PRU ARABORT 和 PRU _ SENSE 显示 在 图 20-22 中 。 
203-217 当 进 程 向 插口 写 时 , ,sosend 发 出 PRU_SEND 请 求 。 如 果 指 定 了 一 个 nam 参 数 ， 图 
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raw usrreq.c 
203 [T 
204 * Ship a packet out. The appropriate raw output 
205 * routine handles any massaging necessary. 
206 “g 
207 case PRU_SEND: 
208 if (nam) { 
209 if (rp-»rcb faddr) ( 
210 error - EISCONN; 
244. break; 
212 ) 
213 rp-»rcb faddr = mtod(nam, struct sockaddr *); 
214 ) else if (rp-»rcb faddr -- 0) ( 
215 error - ENOTCONN; 
216 break; 
217 ) 
218 error - (*so-»so proto-»pr output) (m, so); 
219 m - NULL; 
220 if (nam) 
221 rp-»rcb faddr = 0; 
222 break; 
2Z AS case PRU ABORT: 
224 raw disconnect (rp); 
225 sofree(so); 
226 soisdisconnected(so); 
227 break; 
228 case PRU, SENSE: 
229 p* 
230 * stat: don't bother with a blocksize. 
231 ái 
232 return (0); 





raw usrreq.c 
图 20-22 raw usrreqtFAZE: PRU SEND, PRU _RABORT 和 PRU _ SENSE 请 求 

即 进 程 使 用 sendto 或 者 sendmsg 指 定 了 一 个 目的 地 址 ， 就 会 返回 一 个 错误 ， 因 为 
route_usrreq 总 是 为 一 个 选 路 插口 设置 rcb_faddr。 
218-222  m 指 同 的 mbuf 链 中 的 信息 被 传递 给 协议 的 pr_output 图 数 ， 也 就 是 
route output, 
223-227 如 来 发 出 了 一 个 PRU_ABORT 请 求 ， 则 该 控制 块 被 断 开 连 接 ， 插 口 被 释放 ， 然 后 被 
断 开 连 接 。 
228-232 fstat 系 统 调用 发 出 PRU_SENSE 请 求 。 函 数 返回 OK.。 

图 20-23 显 示 了 剩 下 的 PRU_xxx 请 求 。 





raw usrreq.c 
233 y" 

234 * Not supported. 
235 £y 

236 case PRU RCVOOB: 

237 case PRU RCVD: 

238 return (EOPNOTSUPP); 
239 case PRU LISTEN: 

240 case PRU. ACCEPT: 

241 case PRU SENDOOB: 

242 error - EOPNOTSUPP; 


图 20-23 raw_usrreq 函 数 : 最 后 部 分 


243 


244 
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break; 


case PRU SOCKADDR:. 
lf (rp-»rcb ladOr == 0) (€ 
error = EINVAL; 
break; 
} 
len = rp->rcb_laddr->sa_len; 


bcopy((caddr t) rp-»rcb laddr, mtod(nam, caddr t), (unsigned) len); 
nam-»m len - len; 
break; 


case PRU PEERADDR: 
if (rp-»rcb faddr == 0) { 
error - ENOTCONN; 
break; 
) 
len - rp-»rcb faddr-»sa len; 


bcopy((caddr t) rp-»rcb faddr, mtod(nam, caddr t), (unsigned) len); 
nam-»m len - len; 
break; 
raw usrreq.c 
图 20-23 (£x) 


233-243 这 五 个 请 求 不 被 支持 。 

244-261 PRU SOCKADDR 和 PRU _PEERADDR 请 求 分 别 来 自 getsockname 和 getpeername 系 统 
调用 。 前 者 总 是 返回 一 个 错误 ， 因 为 设置 本 地 地 址 的 bind 系 统 调用 在 路 由 选择 域 中 不 被 支持 。 
后 者 总 是 返回 插口 地 址 结构 route_src 的 内 容 ， 这 个 内 容 是 由 route_usrreq 作 为 外 部 地 址 





设置 的 。 

20.11 raw attach, raw detach 和 raw disconnect Zi 
raw attach 函 数 显 示 在 图 20-24 中 ， 被 raw_input 调 用 来 完成 PRU_ATTACH 请 求 的 处 理 。 

raw cb.c 
49 int 
50 raw attach(so, proto) 
51 struct socket *so; 
52 int proto; 
33 4 
54 struct rawcb *rp = sotorawcb(so); 
55 int error; 
56 y" 
57 * It is assumed that raw attach is called 
58 * after space has been allocated for the 
59 * rYawcb. 
60 */ 
61 lf (rp == 0) 
62 return (ENOBUFS); 
63 if (error - soreserve(so, raw sendspace, raw recvspace)) 
64 return (error); 
65 rp-»rcb socket = so; 
66 rp-»rcb proto.sp family = so-»so proto-»pr domain-»dom family; 
67 rp-»rcb proto.sp protocol - proto; 
68 insque(rp, &rawcb); 
69 return (0); 
70.) 
raw cb.c 





图 20-24 raw attachtKZ 
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49-64 调用 者 必须 已 经 分 配 了 原始 的 协议 控制 块 。soreserve 将 发 送 和 接收 缓存 的 高 水 位 

标记 设置 为 8192。 这 对 于 选 路 报 文 应 该 是 绰绰有余 了 。 

65-67 socket 结构 的 一 个 指针 和 daom_ family( 即 图 20-1 中 用 于 选 路 域 的 PF_ROUTE) 以 及 

proto 参 数 (socket 调 用 的 第 三 个 参数 ) 一 起 存储 在 协议 控制 块 中 。 

68-70 insque 将 这 个 控制 块 加 入 由 全 局 变量 rawcb 作 为 头 指针 的 双 癌 链接 表 的 前 面 。 
raw detach 函 数 显示 在 图 20-25 中 ， 被 raw_input 调 用 来 完成 PRU_DETACH 请 求 的 

处 理 。 


- raw_cb.c 
75 void 
76 raw_detach (rp) 
77 strüct rawcb *rp: 
78 ( 
79 struct socket *so - rp-»rcb socket; 
80 So-»so pcb - 0; 
81 sofree (so); 
82 remque (rp); 
83 free((caddr t) (rp), M PCB); 
84 } 

raw cb.c 


图 20-25 raw detachtKZ 


75-84 socket 结构 中 的 so_pcb 指 针 被 设置 成 空 ， 然 后 释放 这 个 插口 。 使 用 remque 从 双 
向 链接 表 中 删除 该 控制 块 ， 使 用 free 来 释放 被 控制 块 占用 的 内 存 。 

raw disconnect 国 数 显 示 在 图 20-26 中 ， 被 raw_input 调 用 来 完成 PRU __ 
DISCONNECT 和 了 PRU ABORT 请 求 的 处 理 。 
88-94 如 果 该 插口 没有 引用 描述 符 ，raw_detach 将 释放 该 插口 和 控制 块 。 


- raw_cb.c 
88 void 
89 raw_disconnect (rp) 
90 struct rawcb *rp; 
91 1 
92 if (rp-»rcb socket-»so state & SS NOFDREF) 
93 raw detach(rp); 
94 ) 

raw cbc . 


图 20-26 raw disconnect pÁ% 


20.12 小 结 


选 路 插口 是 PF_ROUTE 域 中 的 一 个 原始 插口 。 选 路 插口 只 能 被 一 个 超级 用 户 进程 创建 。 
如 果 一 个 没有 权限 的 进程 想 要 读 内 核 包 含 的 选 路 信息 ， 可 以 使 用 选 路 域 所 支持 的 sysct1 系 统 
调用 (我 们 在 前 一 章 中 描述 过 )。 

在 本 章 中 ， 我 们 第 一 次 碰 到 了 与 插口 相 联 系 的 协议 控制 块 。 在 选 路 域 中 ， 一 个 专门 的 
rawcb 包 含 了 有 关 选 路 插口 的 信息 : 本 地 和 外 部 的 地 址 、 地 址 族 和 协议 。 我 们 将 在 第 22 章 中 
看 到 用 于 UDP、TCP 和 原始 IP 插 口 的 更 大 的 Internet 协 议 控 制 块 (ijnpcb)。 然 而 概念 是 相同 的 : 
socket 结 构 被 插口 层 使 用 ， 而 PCB( 一 个 rawcb 或 一 个 jnpcb) 则 被 协议 层 使 用 。socket 结 
构 指 向 该 PCB， 后 者 也 指 癌 前 者 。 
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route outputEAAZL AP ERERE RTL CU) LA ick. kin TAK, raw_input 
一 个 选 路 报 文 发 送 给 一 个 或 多 个 选 路 插口 。 对 一 个 选 路 插口 的 不 同 的 PRU_xxx 请 求 由 
raw Usrred 和 route_usrred 处 理 。 在 后 面 的 章节 中 ， 我 们 将 碰 到 另外 的 xxx_usrred 力 
数 ， 每 个 协议 UDP、TCP 和 原始 IP) 对 应 一 个 ， 每 个 国 数 都 由 一 个 switch 语 句 组 成 ， 用 来 处 
理 每 一 个 请 求 。 


2] ii 


20.1. 当 进 程 向 一 个 选 路 插口 写 一 个 报 文 时 ， 列 出 两 种 进程 可 以 从 route_output 收 到 
返回 值 的 方法 。 哪 种 方法 更 可 靠 ? 

20.2 因为 routesw 结 构 的 pr _ pzotocol 成 员 为 0， 所 以 当 进 程 对 socket 系 统 调用 指 
定 了 一 个 非 0 的 protocot 参 数 时 ， 会 发 生 什 么 情况 ? 

20.3 路 由 表 中 的 路 由 (和 ARP 项 不 同 ) 永 远 不 会 超时 。 试 在 路 由 上 实现 一 个 超时 机 制 |。 


第 21 章 ARP: 地 址 解析 协议 


21.1 介绍 


地 址 解析 协议 (ARP) 用 于 实现 耻 地 址 到 网 络 接口 硬件 地 址 的 映射 。 篆 见 的 以 太 网 网 络 接口 
硬件 地 址 长 度 为 48 bit。ARP 同 时 也 可 以 工作 在 其 他 类 型 的 数据 链 路 下 ， 但 在 本 章 中 ， 我 们 只 
考虑 将 IP 地 址 映射 到 48 bit 的 以 太 网 地 址 。ARP 在 RFC 826 [Plummer 1982] 中 定义 。 

当 某 主机 要 向 以 太 网 中 男 一 台 主 机 发 送 IP 数 据 时 ， 它 首先 根据 目的 主机 的 IP 地 址 在 ARP 高 
速 缓存 中 查询 相应 的 以 太 网 地 址 ，ARP 高 速 缓存 是 主机 维护 的 一 个 IP 地 址 到 相应 以 太 网 地 址 
的 映射 表 。 如 果 查 到 匹配 的 结 点 ， 则 相应 的 以 太 网 地 址 被 写 入 以 太 网 帧 首部 ， 数 据 报 被 加 入 
到 输出 队列 等 候 发 送 。 如 果 查 询 失 败 ，ARP 会 先 保留 待 发 送 的 IP 数 据 报 ， 然 后 广播 一 个 询问 
目的 主机 硬件 地 址 的 ARP 报 文 ， 等 收 到 回答 后 再 将 IP 数 据 报 发 送出 去 。 

以 上 只 是 简要 描述 了 ARP 协 议 的 基本 工作 过 程 ， 下 面 我 们 将 结合 Net3 中 的 ARP 实 现 来 详 
细 描 述 其 具体 细节 。 卷 1 的 第 4 章 包含 了 ARP 的 例子 。 


21.2 ARP 和 路 由 表 


Net/3 中 ARP 的 实现 是 和 路 由 表 紧 密 关 联 的 ， 这 也 是 为 什么 我 们 要 在 摘 述 路 由 表 结 构 之 后 
再 来 讲解 ARP 的 原因 。 图 21-1 显 示 了 本 章 中 我 们 描述 ARP 要 用 到 的 一 个 例子 。 整 个 图 是 与 本 
书 中 用 到 的 网 络 实例 相对 应 的 ， 它 显示 了 bsdai 主 机 上 当前 ARP 缓 存 的 相关 结构 。 其 中 Ifnet、 
ifaddr 和 in_ifaddr 结 构 是 由 图 3-32 和 图 6-5 人 简化 而 来 的 ， 所 以 在 这 里 忽略 了 在 第 3 章 和 第 6 
章 中 描述 过 的 这 三 个 结构 中 的 某 些 细节 。 例 如 ， 图 中 设 有 画 出 在 两 个 ifaddqt 结 构 之 后 的 
sockaddqr_d1 结 构 一 一 而 仅仅 是 概述 了 这 两 个 结构 中 的 相应 信息 。 同 样 ， 我 们 也 仅仅 是 概 
述 了 三 个 in_ifaddqr 结 构 中 的 信息 。 

下 面 ， 我 们 简要 概述 图 中 的 有 关 要 点 。 细 市 部 分 将 随 着 本 章 的 进行 而 详细 展开 。 

1) 11info_arp 结 构 的 双 同 链表 包含 了 每 一 个 ARP 已 知 的 硬件 地 址 的 少量 信息 。 同 名 全 
局 变量 11info_arp 是 该 链表 的 头 结 点 , 图 中 没有 画 出 第 一 位 的 la_prev 指 针 指向 最 后 一 项 ， 
最 后 一 项 的 1a_next 指 针 指 向 第 一 项 。 该 链表 由 ARP 时 钟 国 数 每 隔 5 分 钟 处 理 一 次 。 

2) 每 一 个 已 知 硬件 地 址 的 IP 地 址 都 对 应 一 个 路 由 表 结 点 (rtentry 结 构 )。1llinfo_arp 
结构 的 la_rt 指 针 成 员 用 来 指向 相应 的 rtentry 结 构 ， 同 样 地 ，rtentry 结 构 的 
rt_11info 指 针 成 员 指 向 11info _ arp 结构 。 图 中 对 应 主机 sun(140.252.13.33)、 
svr4(140.252.13.34) 和 bsdi(140.252.13.35) 的 三 个 路 由 表 结 点 各 自 具 有 相应 的 llinfo arp 
结构 。 如 图 18-2 所 示 。 

3) 而 在 图 的 最 左边 第 四 个 路 由 表 结 点 则 没有 对 应 的 11info_arp 结 构 ， 该 结 点 对 应 于 本 
地 以 太 网 (140.252.13.32) 的 路 由 项 。 该 结 点 的 rt_f1ags 中 设置 了 C 比 特 ， 表 明 该 结 点 是 被 用 
来 复制 形成 其 他 结 点 的 。 设 置 接口 IP 地 址 功能 的 in_ifinit 国 数 (图 6-19) 通 过 调用 zxtinit 
函数 来 创建 该 结 点 。 其 他 三 个 结 点 是 主机 路 由 结 点 (H 标 志 )， 并 由 bsqdi 向 其 他 机 器 发 送 数 据 
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4) rtentry 结 构 中 的 rt_gateway 指 针 成 员 指向 一 个 sockaddr_d1 结 构 变 量 。 如 果 保 存 
物理 地 址 长 度 的 结构 sdl alen 成 员 为 6， 那 么 sockaddr _d1 结 构 就 包含 相应 的 硬件 地 址 信息 。 
5) 路 由 结 点 变量 的 zxt_ifp 成 员 的 相应 指针 成 员 指向 对 应 网 络 设备 接口 的 ifnet 结 构 。 
中 间 的 两 个 路 由 结 点 对 应 的 是 以 太 网 上 的 其 他 主机 ， 这 两 个 结 点 都 指向 le_softc[0]。 而 右 
边 的 路 由 结 点 对 应 的 是 psdi, 指向 环 回 结构 loif。 因为 rt_ifp.if_output 指 向 输出 函数 ， 
所 以 目的 为 本 机 的 数据 报 被 路 由 至 环 回 接口 。 


llinfo arp() llinfo arpt{} llinfo arpt{} llinfo arp() 


Hinfoarp:[la next — -—e[la-next 十 [iaane Jf lanet | 











la hold la hold la hold 
sockaddr dl() sockaddr dl() sockaddr dl() Sockaddr dl() 


AF LINK 
IFT ETHER 


sdl alen-z0 





AF LINK 
IFT ETHER 


sdl alen-6 
8:0:20:3:f6:42 














AF LINK 
IFT ETHER 

sdl alen=6 
0:0:c0:c2:9b:26 






AF LINK 
IPT ETHER 


sdl alen-6 
0:0:c0:6f:2d:40 





rtentryí) rtentryí) rtentryí) rtentryí) 
rn, key = rn key = rn key = rn, key = 
140.252.13.32 140.252.13.33 140.252.13.34 140.252.13.35 

















uc UL Un 
ifnet: le softc[0]:yp sl softc[0]: Dorf: 
U7- ifnet() ifnet() ifnet() 
index-1 index-2 index-3 


si softcü 
ifnet addrs: le woftet) 


in ifaddr: 










ifaddr() 









IFT ETHER 
0:0:c0:6f:2d:4e 


in ifaddr() 









140.252.13.35 
140.252.13.63 
255.255.255.224 







rt_gateway 


ifaddr() 


in ifaddr() 


140.252.13.66 
140.252.13.65 
255.255.255.224 


图 21-1 ARP 与 路 由 表 和 接口 结构 的 关系 










ifaddr() 
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6) 每 一 个 路 由 结 点 还 有 指 问 相应 的 jn_ifaddr 结 构 的 指针 变量 (图 6-8 中 指出 了 
in ifaddr 结 构 内 的 第 一 个 成 员 是 一 个 ifaddr 结 构 ， 因 此 ，rt _ifa 同 样 是 指 则 了 ifaddr 
结构 变量 )。 在 本 图 中 ， 我 们 只 显示 一 个 路 由 结 点 的 相应 指 癌 ， 其 余 的 路 由 结 点 具有 同样 的 性 
质 。 而 一 个 接口 如 1e0， 可 以 同时 设置 多 个 IP 地 址 ， 每 个 IP 地 址 都 有 对 应 的 jn_ifaddr 结 构 ， 
这 就 是 为 什么 除了 rt_ifp 之 外 还 需要 rt_ifa 的 原因 。 

7) 1a_hold 成 员 是 指向 mbuf 链 表 的 指针 。 当 要 回 某 个 IP 传 送 数据 报时 ， 就 需要 广播 一 个 
ARP 请 求 。 当 内 核 等 待 ARP 回 答 时 ， 存 放 该 待 发 数据 报 的 mbut 链 的 头 结 点 的 地 址 信息 就 存放 
在 la_hold 里 。 当 收 到 ARP 回 答 后 ，la_hold 指 向 的 mbuf 链 表 中 的 IP 数 据 被 发 送出 去 。 

8) 路 由 表 结 点 中 rt_metric 结 构 的 变量 rmx_expire 存 放 的 是 与 对 应 的 ARP 结 点 相关 的 
定时 信息 ， 用 来 实现 删除 超时 ( 通 帝 20 分 钟 ) 的 ARP 结 点 。 


在 4.3BSD Reno 中 ， 路 由 表 结 构 定义 有 了 人 很 大 变化 ， 但 4.3BSD Reno 和 Net/2.4.4 BSD 
中 依然 定义 有 ARP 缓 存 ， 只 是 去 除了 作为 单独 结构 的 ARP 缓 存 链表 ， 而 把 ARP 信 息 
放 在 了 路 由 表 结 点 里 。 

在 Net/2 中 ，ARP 表 是 一 个 结构 数组 ， 其 中 每 个 元 素 包 含有 以 下 成 员 : IP 地 址 、 
以 太 网 地 址 、 定 时 器 、 标 志和 一 个 指向 mbuf 的 指针 (类 似 于 图 21-1 中 的 la holda 
员 )。 在 Net/3 中 ,我 们 可 以 看 到 ， 这些 信息 被 分 散 到 多 个 相互 链接 的 结构 里 。 


21.3 代码 介绍 
如 图 21-2 所 示 ， 共 有 包含 9 个 ARP 函 数 的 一 个 C 文 件 和 两 个 头 文件 。 


net/if arp.h arphdr 结 构 的 定义 
netinet/if ether.h 多 个 结构 和 和 常量 的 定义 
netinet/if ether.d ARP FA% 






图 21-2 本 章 中 讨论 的 文件 


图 21-3 显 示 了 ARP 函 数 与 其 他 内 核 函 数 的 关系 。 该 图 中 还 说 明了 ARP 函 数 与 第 19 章 中 某 
些 子 函数 的 关系 ， 下 面 将 逐步 解释 这 些 关 系 。 


21.3.1 全 局 变量 
本 章 中 将 介绍 10 个 全 局 变量 ， 如 图 21-4 所 示 。 
21.3.2 统计 量 


保存 ARP 的 统计 量 有 两 个 全 局 变量 : arp_inuse 和 arp_allocated， 如 图 21-4 所 示 。 
前 者 用 来 记录 当前 正在 使 用 的 ARP 结 点 数 ， 后 者 用 来 记录 在 系统 初始 化 时 分 配 的 ARP 结 点 数 。 
两 个 统计 数 都 不 能 由 netstat 程 序 输 出 ， 但 可 以 通过 调试 绢 来 查看 。 

可 以 使 用 命令 arp -a 来 显示 当前 ARP 缓 存 的 信息 ， 该 命令 使 用 sysct1 系 统 调用 ， 参 数 
如 图 19-36 所 示 。 图 21-5 显 示 该 命令 的 一 个 输出 结果 。 

由 于 图 18-2 中 对 应 多 播 组 224.0.0.1 的 相应 路 由 表 项 设置 了 LL 标志 ， 而 同时 由 于 arp 程 序 查 
询 带 有 RTF_LLINFO 标 志 位 的 ARP 结 点 ， 所 以 该 程序 也 输出 多 播 地 址 。 后 面 我 们 将 解释 为 什 
么 该 表 项 标识 为 “incomplete”， 而 在 它 上 面 的 表 项 是 “permanent 。 
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ifconfig arp 程 序 
程序 i 选 路 插口 
ioctl|SIOCAIFADDR 进程 
2 3 WES (COTET RTM ADD . 
à RTM GET 
- 接收 到 ARP 请 求 / 回 答 o 针对 每 个 ARP 结 点 
© 时 产生 软件 中 断 v 

p- Q {J 
T he a fiy 
er" Ly V 
2 d 

CD $ 

7) Rs] S 

以 太 网 设备 驱动 器 ge S z/E 每 5 分 钟 

AT ug =a T~ 
* 三 Q3 
T E tum 
2E 人- 
Sm m 超时 
X am Ab D> 
NE 


E &) 
E: & 
- à 5 
E &, 
接口 输出 函数 E £ 
(ether_output) 
SA 
赋 卫 地址 时 增加 路 由 结 点 : 使 用 RTM_RADD 
命令 带 RTF_UP 和 RTF CLONING 标 志 
RTM_ADD 


RTM DELETE 
RTM RESOLVE 


arp rtrequest 


针对 所 有 以 太 网 设备 的 
ifa_rtrequest K% 


图 21-3 ARP EA ZFA A P RC fib RIR 0S 


llinfo arp struct llinfo arp l linfo arp 双 向 链接 表 的 表 头 
arpintrq struct ifqueue 来 自 以 太 网 设备 驱动 程序 的 ARP 输 入 队列 
arpt prune Int 检查 ARP 链 表 的 时 间 间 隔 的 分 钟 数 (3) 
arpt keep Int ARP 结 点 的 有 效 时 间 的 分 钟 数 (20) 


arpt_down Int ARP 洪 泛 算法 的 时 间 间 隔 的 秒 数 (20) 
arp_inuse Int 正在 使 用 的 ARP 结 点数 

arp allocated | Int 已 经 分 配 的 ARP 结 点数 

arp maxtries Int 对 一 个 IP 地 址 发 送 ARP 请 求 的 重 试 次 数 (5) 
arpinit done Int 初始 化 标志 

uselookback int 对 本 机 使 用 环 回 (默认 ) 





图 21-4 本 章 介绍 的 全 局 变量 
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bsdi $ arp -a 
sun.tuc.noao.edu (140.252.13.33) at 8:0:20:3:f6:42 
svrá.tuc.noao.edu (140.252.13.34) at 0:0:c0:c2:9b:26 


bsdi.tuc.noao.edu (140.252.13.35) at 0:0:c0:6£:2d:40 permanent 
ALL-SYSTEMS.MCAST.NET (224.0.0.1) at (incomplete) 


图 21-5 与 图 18-2 相 应 的 arp -a 命令 的 输出 





21.3.3 SNMP 变量 


在 卷 1 的 25.8 市 中 我 们 讲 过 ， 最 初 的 SNMP MIB 定 义 了 一 个 地 址 映射 组 ， 该 组 对 应 的 是 系 
统 的 当前 ARP 缓 存 信息 。 在 MIB-II 中 不 再 使 用 该 组 ， 而 用 各 个 网 络 协议 组 (如 IP 组 ) 分 别 包含 地 
址 映射 表 来 奉 代 。 注 意 ， 从 Net/2 到 Net/3， 将 单独 结构 的 ARP 缓 存 演化 为 在 路 由 表 中 集成 的 
ARP 信 息 是 与 SNMP 的 变化 并 行 的 。 


IP 地 址 映射 表 ，index = «ipNetToMedialfIndex».«ipNetToMediaNetAddress» 


ipNetToMediaIfIndex 相应 接口 : ifIndex 












if index 




















ipNetToMediaPhysAddress rt gateway | 硬件 地 址 
ipNetToMediaNetAddress rt key IP 地 址 
ipNetToMediaType rt flags 映射 类 型 : 1= 其 他 ，2= 失 效 ，3= 动 态 ，4= 静 态 ( 见 正文 ) 


图 21-6 IP 地 址 映射 表 : ipNetToMediaTable 


图 21-6 所 示 的 是 MIB-II 中 的 一 个 地址 映射 表 ，ipNetToMediaTable,，, 该 表 保 存 的 值 


来 自 于 路 由 表 结 点 和 相应 的 fnet 结 构 。 
如 果 路 由 表 结 点 的 生存 期 为 0， 则 被 认为 是 永久 的 ， 也 即 静 态 的 。 否 则 就 是 动态 的 。 


21.4 ARP 结构 
在 以 太 网 中 传送 的 ARP 分 组 的 格式 图 21-7 所 示 。 


硬件 类 型 ， ar_hrd (ARPHRD_ETHER) 
协议 类 型 ar pro(ETHERTYPE IP) 


硬件 地 址 长 度 , ar_hln (6) 
协议 地 址 长 度 ,ar_pln (4) 













ether_type 
ether dhost ether, shost ar, op arp. sha arp. spa arp tha arp tpa 
"me m DLL IIIS PP PTT 
地 址 bhi |X% 地 址 地 址 地 址 地 址 
6 bytes 6 2 2 2. 2 4 2 6 4 6 4 


| 以 太 网 首部 ARP 首 部 | 
ether header() arphdr() 以 太 网 ARP 字 段 
ether arp() 


图 21-7 在 以 太 网 上 使 用 时 ARP 请 求 或 回答 的 格式 


结构 ether_header 定 义 了 以 太 网 帧 首部 ， 结 构 arphdr 定 义 了 其 后 的 5 个 字段 ， 其 信息 
用 于 在 任何 类 型 的 介质 上 传送 ARP 请 求 和 回答 ，ether_arp 结 构 除 了 包含 arphdr 结 构 外 ， 
还 包含 源 主机 和 目的 主机 的 地 址 。 

结构 arphdr 的 定义 如 图 21-8 所 示 。 图 21-7 显 示 了 该 结构 中 的 前 4 个 字段 。 
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45 struct arphdr ( f amh 
46 u short ar hrd; /* format of hardware address */ 
47 u short ar. pro; /* format of protocol address */ 
48 u char ar hln; /* length of hardware address */ 
49 u_char ar pln; /* length of protocol address */ 
50 u short ar. op; /* ARP/RARP operation, Figure 21.15 */ 
SI Ps 

if arp.h 


图 21-8 arphdr 结 构 : 通用 的 ARP 请 求 /回答 数据 首部 


图 21-9 显 示 了 ether_arp 结 构 的 定义 ， 其 中 包含 了 arphdr 结 构 、 源 主机 和 目的 主机 的 
IP 地 址 和 硬件 地 址 。 注 意 ，ARP 用 硬件 地 址 来 表示 48 bit 以 太 网 地 址 ， 用 协议 地 址 来 表示 32 bit 
IP 地 址 。 


if_ether.h 
79 struct ether arp ( 


80 struct arphdr ea hdr; die 
81 u_char arp sha[6]; ^ dem 
82 u_char arp spa(4]; p" 
83 u,char arp tha[6]; /* 
84 u_char arp tpaí4]; pP" 
85 ji 


fixed-size header */ 

sender hardware address */ 
sender protocol address */ 
target hardware address */ 
target protocol address */ 


86 #define 
87 tdefine 


ea hdr. 
ea hdr. 


ar. hrd 
ar pro 


arp hrd 
arp. pro 


88 
89 
90 


#define 
#define 
#define 


arp hln 
arp pln 
arp op 


ea hdr. 
ea hdr. 
ea hdr. 


ar hln 
ar pln 
ar op 


if ether.h 
[21-9 ether arp 结 构 


每 个 ARP 结 点 中 ， 都 有 一 个 11info_arp 结 构 ， 如 图 21-10 所 示 。 所 有 这 些 结 构 组 成 的 链 
接 表 的 头 结 点 是 作为 全 局 变量 分 配 的 。 我 们 经 党 把 该 链接 表 称 为 ARP 高 速 缓 存 ， 因 为 在 图 21- 
1 中， 只 有 该 数据 结构 是 与 ARP 结 点 一 一 对 应 的 。 





103 struct llinfo arp ( if ether.h 


104 struct llinfo arp *1la next; 

105 struct llinfo arp *la prev; 

106 struct rtentry *1la rt; 

107 struct mbuf *1a hold; /* last packet until resolved/timeout */ 
108 long la asked; /* d$times we've queried for this addr */ 
109 ); 


/* deletion time in seconds */ 


if ether.h 


110 £$define la timer la rt-»rt rmx.rmx expire 





图 21-10 1linfo arp 结构 


在 Net/2 及 以 前 的 系统 中 ,很 容易 识别 作为 ARP 高 速 缓存 的 数据 结构 ， 因 为 每 一 
个 ARP 结 点 的 信息 都 存放 在 单一 的 结构 中 。 而 Net3 则 把 ARP 信 息 存 放 在 多 个 结构 中 ， 
没有 哪个 数据 结构 被 称 为 ARP 高 速 缓存 。 HASTER, 我 们 依然 用 ARP 高 速 
缓存 的 概念 来 表示 一 个 ARP 结 点 的 信息 。 


104-106 该 双向 链接 表 的 前 两 项 由 insque 和 zemque 两 个 图 数 更 新 。1a_zrt 指 呵 相 关 的 路 
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由 表 结 点 ， 该 路 由 表 结 点 的 rt_11info 成 员 指 向 la_rt。 

107 ” 当 ARP 接 收 到 一 个 要 发 往 其 他 主机 的 IP 数 据 报 ， 且 不 知道 相应 硬件 地 址 时 ， 必 须发 送 一 
个 ARP 请 求 ， 并 等 待 回 答 。 在 等 待 ARP 回 答 时 ， 指 向 待 发 数据 报 的 指针 存放 在 la_hold 中 。 
收 到 回答 后 ，1a_hold 所 指 的 数据 报 被 发 送出 去 。 

108-109 1la_asked 记 录 了 连续 为 某 个 IP 地 址 发 送 请 求 而 没有 收 到 回答 的 次 数 。 在 图 21-24 
中 ， 我 们 可 以 看 到 ， 当 这 个 数值 达到 某 个 限定 值 时 ， 我 们 就 认为 该 主机 是 关闭 的 ， 并 在 其 后 
一 段 时 间 内 不 再 发 送 该 主机 的 ARP 请 求 。 

110 这 个 定义 使 用 路 由 结 点 中 rt_metrics 结 构 的 rmx_expire 成 员 作 为 ARP 定 时 器 。 当 
值 为 0 时 ，ARP 项 被 认为 是 永久 的 ， 当 为 非 零 时 ， 值 为 当 结 点 到 期 时 算 起 的 秒 数 。 


21.5 arpwhohastAü2 


arpwhohas 团 数 通 常 由 arpresolve 调 用 ， 用 于 广播 一 个 ARP 请 求 。 如 图 21-11 所 示 。 
它 还 可 由 每 个 以 太 网 设备 驱动 程序 调用 ， 在 将 IP 地 址 赋予 该 设备 接口 时 主动 发 送 一 个 地 址 联 
编 信 息 ( 图 6-28 中 的 SIOCSIFADDR ioct1)。 主 动 发 送 地 址 联 编 信 息 不 但 可 以 检测 在 以 太 网 
中 是 否 存 在 IP 地 址 冲突 ， 并 且 可 以 使 其 他 机 器 更 新 其 相应 信息 。arpwhohas 只 是 简单 调用 下 
一 部 分 将 要 介绍 的 arpredquest 国 数 。 


if ether.c 
196 void 
197 arpwhohas(ac, addr) 
198 struct arpcom *ac; 
199 struct in addr *addr; 
200 ( 
201 arprequest(ac, &ac-»ac ipaddr.s addr, &addr-»s addr, ac-»ac enaddr); 
202 ) 

if ether.c 


图 21-11 arpwhohasrK7: 广播 一 个 ARP 请 求 


196-202 arpcom 结 构 ( 图 3-26) 对 所 有 以 太 网 设备 是 通用 的 ， 是 le softc 结 构 ( 图 3-20) 的 
一 部 分 。ac _ipaddr 成 员 是 接口 的 IP 地 址 的 复制 ， 当 SIOCSIFADDR ioct1 执 行 时 由 驱动 
程序 填写 (图 6-28)。ac_enaddr 是 该 设备 的 以 太 网 地 址 。 

该 函数 的 第 二 个 参数 addr ， 是 ARP 请 求 的 目的 IP 地 址 。 在 主动 发 送 动态 联 编 信息 时 ， 
addr 等 于 ac_ipaddr， 所 以 arprequest 的 第 二 和 第 三 个 参数 是 一 样 的 ， 即 发 送 IP 地 址 和 目 
的 IP 地 址 在 主动 发 送 动态 联 编 信息 时 是 一 样 的 。 


21.6 arprequest 了 函数 


arprequest 团 数 由 arpwhohas 痕 数 调用 ， 用 于 广播 一 个 ARP 请 求 。 该 函数 建立 一 个 
ARP 请 求 分 组 ， 并 将 它 传 送 到 接口 的 输出 函数 。 

在 分 析 代 码 之 前 ， 我 们 先 来 看 一 下 该 函数 建立 的 数据 结构 。 传 送 ARP 请 求 需要 调用 以 太 
网 设备 的 接口 输出 函数 ether_ output, ether output 的 一 个 参数 是 mbuf， 它 包含 待 发 
送 数据 ， 即 图 21-7 中 以 太 网 类 型 字段 后 的 所 有 内 容 。 男 外 一 个 参数 包含 目的 地 址 的 端口 地 址 
结构 。 通 和 常情 况 下 ， 该 目的 地 址 是 IP 地 址 (例如 ， 在 图 21-3 中 ，ip_output 调 用 
ether_output)。 特 殊 情况 下 ， 端 口 地 址 的 sa_family 被 设 为 AF UNSPEC， 即 告知 
ether_output 它 所 带 的 是 一 个 已 填充 的 以 太 网 帧 首部 ， 包 含 了 目的 主机 的 硬件 地 址 ， 这 就 
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防止 了 ether_output 去 调用 arpreslove 而 导致 死 循环 。 图 21-3 中 没有 显示 这 种 循环， 在 
arprequest 下 面 的 接口 输出 函数 是 ether output。 如 果 ether output 再 去 调用 
arpresolve, 将 导致 死 循 环 。 

图 21-12 显 示 了 该 函数 建立 的 两 个 数据 结构 mbuf 和 sockaddr。 男 外 还 有 两 个 函数 中 用 到 
的 指针 eh 和 ea。 


sockaddr() mbufí() 
人 NULL 







AP = : m nextpkt NULL 
meg |! 14573 
| m pkthdr.len 28 







eh 


m pkthdr.rcvif|NULL 






未 使 用 
(72 字 市 ) 
ea —» 
ether arpí() 
(28 字 市) 
图 21-12 arprequest 建 立 的 sockaddr 和 mbuf 
图 21-13 给 出 了 arprequest 孙 数 的 源 代码 。 
if_ether.c 


209 static void 

210 arprequest(ac, sip, tip, enaddr) 
211 struct àarpcom *ac; 

212 u.long *sip, *tip; 

213 u char *enaddr; 


214 ( 

215 struct mbuf *m; 

216 struct ether header *eh; 

24.7 struct ether arp *ea; 

218 struct sockaddr sa; 

219 if ((m = m gethdr(M DONTWAIT, MT DATA)) == NULL) 
220 return; 

221 m-»m len = sizeof(*ea); 

222 m-»m pkthdr.len = sizeof (*ea); 

223 MH ALIGN(m, sizeof (*ea)); 

224 ea = mtod(m, struct ether arp *); 

225 eh - (struct ether header *) sa.sa data; 

226 bzero((caddr t) ea, sizeof(*ea)); 

22.1 bcopy((caddr t) etherbroadcastaddr, (caddr t) eh-»ether dhost, 
228 sizeof(eh-»ether dhost)); 


图 21-13 arprequest 函数 : 创建 一 个 ARP 请 求 并 发 送 
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229 eh-»ether type - ETHERTYPE ARP; /* if output() will swap */ 
230 ea-»arp hrd = htons (ARPHRD ETHER); 
231 ea-»arp. pro = htons(ETHERTYPE IP); 
232 ea-»arp hln = sizeof(ea-»arp sha);  /* hardware address length */ 
233 ea-»arp pln = sizeof(ea-»arp spa);  /* protocol address length */ 
234 ea-»arp op = htons (ARPOP REQUEST) ; 
235 bcopy((caddr t) enaddr, (caddr t) ea-»arp sha, sizeof(ea-»arp sha)); 
236 bcopy((caddr t) sip, (caddr t) ea-»arp spa, sizeof(ea-»arp spa)); 
237 bcopy((caddr t) tip, (caddr t) ea-»arp tpa, sizeof(ea-»arp tpa)); 
238 sa.sa family - AF UNSPEC; 
239 sa.sa len = sizeof(sa); 
240 (*ac-»ac if.if output) (&ac-»ac if, m, &sa, (struct rtentry *) 0); 
241 ) ; 
if_ether.c 
图 21-13 (£x) 
1. 分 配 和 初始 化 mbuf 


209-223 分 配 一 个 分 组 数据 首部 的 mbuf， 并 对 两 个 长 度 字 段 赋 值 。MH_ALIGN 将 28 字 贡 的 
ether_arp 结 构 置 于 mbuf 的 尾部 ， 并 相应 地 设置 m_data 指 针 的 值 。 将 该 数据 结构 置 于 mbuf 
尾部 ， 是 为 了 允许 ether_output 预 先 考虑 将 14 字 市 的 以 太 网 帧 首部 置 于 同一 mbuf 中 。 

2. 初始 化 指针 
224-226 给 ea 和 eh 两 个 指针 赋值 ， 并 将 ether_arp 结 构 的 值 赋 为 0。bzetzo 的 唯一 目的 在 
将 目的 硬件 地 址 置 0， 该 结构 中 其 余 8 个 字段 已 被 设 成 相应 的 值 。 

3. 填充 以 太 网 帧 首部 
227-229 目的 以 太 网 地 址 设 为 以 太 网 广播 地 址 ， 并 将 以 太 网 帧 类 型 设 为 BTHERTYPE ARP, 
注意 代码 中 的 注释 ， 接 口 输出 函数 将 该 字段 从 主机 字 市 序 转化 为 网 络 字 市 序 ,， 该 函数 还 将 填 
充 本 机 的 以 太 网 地 址 。 图 21-14 显 示 了 不 同 以 太 网 帧 类 型 字段 的 常量 值 。 


ETHERTYPE IP 0x0800 | IP 帧 


ETHERTYPE ARP 0x0806 ARPiyi 
ETHERTYPE REVARP 0x8035 | JW ARPIi 
ETHERTYPE IPTRAILERS | Ox1000 | 尾部 封装 (已 废弃 ) 





图 21-14 以 太 网 帧 类 型 字段 


RARP 将 硬件 地 址 映射 成 IP 地 址 ， 通 常 在 无 盘 工 作 站 系统 引导 时 使 用 。 一 般 来 说 ，RARP 
部 分 不 属于 内 核 TCP/IP 实 现 ， 所 以 本 书 将 不 描述 ， 卷 1 的 第 5 章 讲 述 了 RARP 的 概念 。 

4. HARP FE 
230-237 填充 了 ether_arp 的 所 有 字段 ， 除 了 ARP 请 求 所 要 询问 的 目的 硬件 地 址 。 常 量 
ARPHRD_ETHER 的 值 为 时， 表示 硬 件 地 址 的 格式 是 6 字 市 的 以 太 网 地 址 。 为 了 表示 协议 地 址 
是 4 字 节 的 IP 地 址 ，arp_pro 的 值 设 为 图 21-14 中 所 指 的 IP 协 议 地 址 类 型 (0x800)。 图 21-15 显 示 
了 不 同 的 ARP 操 作 码 。 本 章 中 ， 我 们 将 看 到 前 两 种 。 后 两 种 在 RARP 中 使 用 。 

5. 填充 sockaddr ， 并 调用 接口 输出 因数 
238-241 接口 地 址 结构 的 sa family 成 员 的 值 设 为 AP_UNSPEC，sa_member 成 员 的 值 设 
为 16。 调 用 接口 输出 函数 ether output, 
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ARPOP REQUEST 解析 协议 地 址 的 ARP 请 求 


ARPOP REPLY 回答 ARP 请 求 
ARPOP REVREQUEST 解析 硬件 地 址 的 RARP 请 求 
ARPOP REVREPLY 回答 RARP 请 求 





图 21-15 ARP 操作 码 


21.7 arpintr ži 


在 图 4-13 中 , 当 ether_input 函 数 接收 到 帧 类 型 字段 为 ETHERTYPE_ARP 的 以 太 网 帧 时 ， 
产生 优先 级 为 NETISR_ARP 的 软件 中 断 ， 并 将 该 帧 挂 在 ARP 输 入 队列 arpintrq 的 后 面 。 当 
内 核 处 理 该 软件 中 断 时 ， 调 用 arpintr 函 数 ， 如 图 21-16 所 示 。 


319 void gy 
320 arpintr() 
321 { 
322 struct mbuf *m; 
323 struct arphdr *ar; 
324 int S; 
325 while (arpintrq.ifq head) ( 
326 S - Splimp(); 
341 IF DEQUEUE(&arpintrq, m); 
328 splx(s); 
329 if (m == 0 || (m-»m flags & M PKTHDR) == 0) 
330 panic("arpintr"); 
331 if (m-»m len >= sizeof(struct arphdr) && 
332 (ar = mtod(m, struct arphdr *)) && 
333 ntohs(ar-»ar hrd) == ARPHRD ETHER && 
334 m-»m len >= sizeof(struct arphdr) + 2*ar-»ar hln + 2*ar-»ar. pln) 
335 switch (ntohs(ar-»ar pro)) ( 
336 case ETHERTYPE IP: 
334 case ETHERTYPE IPTRAILERS: 
338 in, arpinput (m); 
339 continue; 
340 ) 
341 m freem(m); 
342 ) 
343 ) 
if ether.c 


图 21-16 arpintriE& TE: 处 理 包 含 ARP 请 求 /回答 的 以 太 网 帧 


319-343 ”while 循环 一 次 处 理 一 个 以 太 网 帧 ， 直 到 处 理 完 队列 中 的 所 有 帧 为 止 。 只 有 当 帧 
的 硬件 类 型 指明 为 以 太 网 地 址 ， 并 且 帧 的 长 度 大 于 或 等 于 arphdr 结 构 的 长 度 加 上 两 个 硬件 地 
址 和 两 个 协议 地 址 的 长 度 时 ， 该 帧 才能 被 处 理 。 如 果 协 议 地 址 的 类 型 是 BTHERTYPE_IP 或 
ETHERTYPE IPTRRAILERS 时 ， 调 用 in_arpinput 国 数 ， 否 则 该 帧 将 被 丢弃 。 

注意 if 语 句 中 对 条 件 的 检测 顺序 。 共 两 次 检查 帧 的 长 度 。 首 先 ， 当 帧 长 大 于 或 等 于 
arphdr 结 构 的 长 度 时 ， 才 去 检查 帧 结构 中 的 其 他 字段 ; 然后 ， 利 用 arphdaz 中 的 两 个 长 度 字 
段 再 次 检查 帧 长 。 
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21.8 in arpinput 函 数 


该 函数 由 arpintzr 调 用 ， 用 于 处 理 接 收 到 的 ARP 请 求 /回答 。ARP 本 身 的 概念 比较 简单 ， 
但 是 加 上 许多 规则 后 ， 实 现 就 比较 复杂 ， 下 面 先 来 看 一 下 两 种 典型 情况 : 

1) 如 果 收 到 一 个 针对 本 机 IP 地 址 的 请 求 ， 则 发 送 一 个 回答 。 这 是 一 种 普通 情况 。 很 显然 ， 
我 们 将 继续 从 那个 主机 收 到 数据 报 ， 随 后 也 会 问 它 回 送 报 文 。 所 以 ， 如 果 我 们 还 没有 对 应 它 
的 ARP 结 点 ， 就 应 该 添加 一 个 ARP 结 点 ， 因 为 这 时 我 们 已 经 知道 了 对 方 的 卫 了 地 址 和 硬件 地 址 。 
这 会 优化 其 后 与 该 主机 的 通信 。 

2) 如 果 收 到 一 个 ARP 回 答 ， 那 么 此 时 ARP 结 点 是 完整 的 ， 因 此 就 知道 了 对 方 的 硬件 地 址 。 
该 地 址 存放 在 sockaddr_dl 结 构 中 ， 所 有 发 往 该 地 址 的 数据 报 将 被 发 送 。 

ARP 请 求 是 被 广播 发 送 的 ， 所 以 以 太 网 上 的 所 有 主机 都 将 看 到 该 请 求 ， 当 然 包 括 那 些 非 
目的 主机 。 回 想 一 下 arprequest 函 数 ， 在 发 送 ARP 请 求 时 ， 帧 中 包含 着 请 求 方 的 IP 地 址 和 
硬件 地 址 ， 这 就 产生 了 下 面 的 情况 : 

3) 如 果 其 他 主机 发 送 了 一 个 ARP 请 求 或 回答 ， 其 中 发 送 方 的 IP 地 址 与 本 机 相同 ， 那 么 肯 
定 有 一 个 主机 配置 有 误 。Net/3 将 检测 到 该 差错 ， 并 疝 管理 员 登 记 一 个 报 文 (这 里 我 们 不 分 请 求 
或 回答 ， 因 为 jn_arpinout 不 检查 操作 类 型 ， 但 是 ARP 回 答 将 被 单 播 ， 只 有 目的 主机 才能 
到 信息 )。 

4) 如 果 主 机 收 到 来 自 其 他 主机 的 请 求 或 回答 ， 对 应 的 ARP 结 点 早已 存在 ， 但 硬件 地 址 发 生 
了 变化 ， 那 么 ARP 结 点 将 被 更 新 。 这 种 情况 是 这 样 发 生 的 : 其 他 主机 以 不 同 的 硬件 地 址 重新 局 
动 ， 而 本 机 的 对 应 ARP 结 点 还 未 失效 。 这 样 ， 根 据 机 器 重启 动 时 主动 发 送 动态 联 编 信息 ， 可 以 
使 主机 不 至 于 因 其 他 主机 重启 动 后 导致 的 ARP 结 点 失效 而 不 能 通信 。 

5) 主机 可 以 被 配置 为 代理 ARP 服 务 左 。 这 种 情况 下 ， 主 机 可 以 代 其 他 主机 啊 应 ARP 请 求 ， 
在 回答 中 提供 其 他 主机 的 硬件 地 址 。 代 理 ARP 回 答 中 对 应 目的 硬件 地 址 的 主机 必须 能 够 把 JP 
数据 报 转 发 至 ARP 请 求 中 指定 的 目的 主机 。 卷 1 的 4.6 节 讨论 了 代理 ARP。 

一 个 Net/3 系 统 可 以 配置 成 代理 ARP 服 务 右 。 这 些 ARP 结 点 可 以 通过 arp 命 令 添加 ， 该 命令 
中 指定 IP 地 址 、 硬 件 地 址 并 使 用 关键 词 pub。 我 们 将 在 图 21-20 中 看 到 该 实现 ， 并 在 21-12 75 
讨论 其 实现 细 刷 。 

将 ijn_arpinput 的 分 析 分 为 四 部 分 ， 图 21-17 显 示 了 第 一 部 分 。 

358-375 ether_arp 结 构 的 长 度 由 调用 者 (arp_intr 邹 数 ) 验 证 ， 所 以 ea 指针 指向 接收 到 
的 分 组 。ARP 操 作 码 (请 求 或 回答 ) 被 拷贝 至 op 字段 ， 但 具体 值 要 到 后 面 来 验证 。 发 送 方 和 目 
的 方 的 卫 地 址 拷贝 到 isaddqr 和 itaddr。 

1. 查找 匹配 的 接口 和 IP 地 址 
376-382 搜索 本 机 的 Internet 地 址 链表 (in_ifaddr 结 构 的 链表 ， 图 6-5)。 要 记 住 一 个 接 
口 可 以 有 多 个 IP 地 址 。 收 到 的 数据 报 中 有 指向 接收 接口 ifnet 结 构 的 指针 (在 mbuf 数 据 报 的 首 
部 )，for 循 环 只 考虑 与 接收 接口 相关 的 IP 地 址 。 如 果 查 询 到 有 IP 地 址 等 于 目的 方 IP 地 址 或 发 
送 方 耻 地 址 ， 则 退出 循环 。 

383-384 如 果 循 环 退 出 时 ， 变 量 maybe_ia 的 值 为 0， 说 明 已 经 搜索 了 配置 的 卫 地 址 整个 链 
表 而 没有 找到 相关 项 。 国 数 跳 至 out( 图 21-19)， 丢 弃 mbuf， 并 返回 。 这 种 情况 只 发 生 在 收 到 
ARP 请 求 的 接口 虽然 已 初始 化 但 还 没有 分 配 卫 地 址 时 。 
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385 如果 退出 循环 时 ，maybe_ia 值 不 为 0， 即 找到 了 一 个 接收 端 接口 ， 但 没有 一 个 下 地 址 
与 目的 方 1P 地 址 或 发 送 方 IP 地 址 匹配 ， 则 myaddr 的 值 设 为 该 接口 的 最 后 一 个 IP 地 址 ， 否 则 
(正常 情况 )，myaddr 包 含 与 目的 方 或 发 送 方 的 IP 地 址 匹配 的 本 地 IP 地 址 。 





: if ether.c 
358 static void 
359 in arpinput (m) 
360 struct mbuf *m; 
361 ( 
362 struct ether arp *ea; 
363 struct arpcom *ac - (struct arpcom *) m-»m pkthdr.rcvif; 
364 struct ether header *eh; 
365 struct llinfo.arp *la = 0; 
366 etrruot rtentry *rt(:; 
367 struct in ifaddr *ia, *maybe ia - 0; 
368 struct sockaddr. dl *sdl; 
369 struct sockaddr sa; 
370 struct in addr isaddr, itaddr, myaddr; 
ATA int Op; 
372 ea = mtod(m, struct ether arp *); 
313 op = ntohs(ea-»arp op); 
374 bcopy((caddr t) ea-»arp spa, (caddr t) & isaddr, sizeof(isaddr)); 
375 bcopy((caddr t) ea-»arp tpa, (caddr t) & itaddr, sizeof(itaddr)); 
376 for (ia - in ifaddr; ia; ia - ia-»ia next) 
3174 if (ia-»ia ifp -- &ac-»ac if) ( 
378 maybe ia - ia; 
379 if ((itaddr.s addr == ia-»ia addr.sin addr.s addr) || 
380 (isaddr.s addr == ia-»ia addr.sin addr.s addr)) 
381 break; 
382 } 
383 if (maybe_ia == 0) 
384 goto out; 
385 myaddr = ia ? ia-»ia addr.sin addr : maybe ia-»ia addr.sin addr; 
if ether.c 
图 21-17 in arpinput?AZ&: 查找 匹配 接口 
图 21-18 显 示 了 in_arpinput 函 数 的 第 二 部 分 ， 执 行 分 组 的 验证 。 
386 if (!bcmp((caddr t) ea-»arp sha, (caddr t) ac-»ac enaddr, Teen e 
387 sizeof(ea-»arp sha))) 
388 goto out; /* it's from me, ignore it. */ 
389 if (!bcmp((caddr t) ea-»arp sha, (caddr t) etherbroadcastaddr, 
390 sizeof(ea-»arp sha))) ( 
391 log (LOG ERR, 
392 "arp: ether address is broadcast for IP address $x!Wn", 
393 ntohl(isaddr.s addr)); 
394 goto out; 
395 } 
396 if (isaddr.s addr == myaddr.s addr) 1 
397 log (LOG ERR, 
398 "duplicate IP address $x!! sent from ethernet address: $s*n", 
399 ntohl(isaddr.s addr), ether sprintf(ea-»arp sha)); 
400 itaddr - myaddr; 
401 goto reply; 
402 ) 





if ether.c 


图 21-18 in arpinput kğ: 验证 接收 到 的 分 组 
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2. 验证 发 送 方 的 硬件 地 址 
386-388 如 果 发 送 方 的 硬件 地 址 等 于 本 机 接口 的 硬件 地 址 ， 那 是 因为 收 到 了 本 机 发 出 的 请 
求 ， 忽 略 该 分 组 。 
389-395 如果 发 送 方 的 硬件 地 址 等 于 以 太 网 的 广播 地 址 ， 说 明 出 了 差错 。 记 录 该 差错 ， 并 
丢弃 该 分 组 。 

3. 检查 发 送 方 IP 地 址 
396-402 如 果 发 送 方 的 IP 地 址 等 于 myaddr， 说 明 发 送 方 和 本 机 正在 使 用 同一 个 IP 地 址 。 这 
也 是 一 个 差错 一 一 要 么 是 发 送 方 ， 要 么 是 本 机 系统 配置 出 了 差错 。 记 录 该 差错 ， 在 将 目的 IP 
地 址 设 为 nyaddr 后 ， 程序 转 至 reply( 图 21-19)。 注 意 该 ARP 分 组 本 来 要 送 往 以 太 网 中 其 他 
主机 的 一 一 该 分 组 本 来 不 是 要 送 给 本 机 的 。 但 是 ， 如 果 这 种 形式 的 IP 地 址 欺骗 被 检测 到 ， 应 
记录 差错 ， 并 产生 回答 。 

图 21-19 显 示 了 in_arpinput 国 数 的 第 三 部 分 。 





—————————————— — — —— if. ether.c 
403 la = arplookup(isaddr.s addr, itaddr.s addr == myaddr.s addr, 0); 
404 if (la && (rt = la-»la rt) && (sdl = SDL(rt-»rt gateway))) ( 
405 if (sdl-»sdl alen && 
406 bcmp((caddr t) ea-»arp sha, LLADDR(sdl), sdl-»sdl alen)) 
407 log (LOG_INFO, "arp info overwritten for $x by $sWn", 
408 isaddr.s, addr, ether. sprintf(ea-»arp. sha)); 
409 bcopy((caddr t) ea-»arp sha, LLADDR (sdl), 
410 sdl-»sdl alen - sizeof(ea-»arp sha)); 
411 if (rt-»rt expire) 
412 rt-»rt expire = time.tv sec + arpt keep; 
413 rt-»rt flags &- "RTF REJECT; 
414 la-»1a, asked - 0; 
415 if (1la-»1a hold) ( 
416 (*ac-»ac if.if output) (&ac-»ac.if, la-»1la, hold, 
417 rt key(rt), rt); 
418 la-»1a. hold = O0; 
419 ) 
420 ) 
421 reply: 
422 if (op l= ARPOP REQUEST) ( 
423 out: 
424 m freem(í(m); 
425 return; 
426 ) 
if ether.c 


图 21-19 in arpinput 函数 : 创建 新 的 ARP 结 点 或 更 新 已 有 的 ARP 结 点 


4. 在 路 由 表 中 搜索 与 发 送 方 IP 地 址 匹配 的 结 点 
403 arplookup 在 ARP 高 速 缓存 中 查找 符合 发 送 方 的 IP 地 址 (isaddr)。 当 ARP 分 组 中 的 目 
的 IP 地 址 等 于 本 机 IP 时 ， 如 果 要 创建 新 的 ARP 结 点 ， 那 么 第 二 个 参数 是 1， 如 果 不 需要 创建 新 
的 ARP 结 点 ， 那 么 第 二 个 参数 是 0。 如 果 本 机 就 是 目的 主机 ， 总 是 要 创建 ARP 结 点 的 ， 除 非 一 
个 碍 找 其 他 主机 的 广播 分 组 ， 这 种 情况 下 只 是 在 已 有 的 ARP 结 点 中 查询 。 正 如 前 面 提 到 的 ， 
如 采 主 机 收 到 一 个 对 应 它 自 己 的 ARP 请 求 ， 则 说 明 以 太 网 中 有 其 他 主机 将 要 与 它 通信 ， 所 以 
应 该 创建 一 个 对 应 该 主机 的 ARP 结 点 。 

第 三 个 参数 是 0， 意 味 着 不 去 查找 代理 ARP 结 点 (后 面 要 证 明 )。 返 回 值 是 指向 11info_ 
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arp 结构 的 指针 ， 如 果 查 不 到 或 没有 创建 ， 返 回 值 就 是 空 。 

5. 更 新 已 有 结 点 或 填充 新 的 结 点 
404 只 有 当 以 下 三 个 条 件 为 真 时 if 语 句 才 执行 : 

1) 找到 一 个 已 有 的 ARP 结 点 或 成 功 创建 一 个 新 的 ARP 结 点 ( 即 1a 非 空 )，; 

2) ARP 结 点 指向 一 个 路 由 表 结 点 (rt); 

3) 路 由 表 结 点 的 re_gateway 字 上 段 指 问 一 个 sockaddr dl 结构 。 

对 于 每 一 个 目的 并 非 本 机 的 广播 ARP 请 求 ， 如 果 发 送 方 的 IP 地 址 不 在 路 由 表 ， 则 第 一 个 
条 件 为 假 。 

6. 检查 发 送 方 的 硬件 地 址 是 否 已 改变 
405-408 如 琳 链 路 层 地 址 长 度 (sdl_alen) 非 0, 说 明 引 用 的 路 由 表 结 点 是 现存 的 而 非 新 创建 
的 ， 则 比较 链 路 层 地 址 和 发 送 方 的 硬件 地 址 。 如 果 不 同 ， 则 说 明 发 送 方 的 硬件 地 址 已 经 改变 ， 这 
征 因为 发 远方 以 不 同 的 以 太 网 地 址 重新 局 动 了 系统 ， 而 本 机 的 ARP 结 点 还 未 超时 。 这 种 情况 虽然 
很 少 出 现 ， 但 也 必须 考虑 到 。 记 录 差 错 信息 后 ， 程 序 继续 往 下 执行 ， 更 新 ARP 结 点 的 硬件 地 址 。 


在 这 个 记录 报 文中 ， 发 送 方 的 IP 地 址 必须 转换 为 主机 字 节 序 ， 这 是 一 个 错误 。 


7. 记录 发 送 方 硬件 地 址 
409-410 将 发 送 方 的 硬件 地 址 写 入 路 由 表 结 点 中 rt_gateway 成 员 指 向 的 sockaddr_dl 
结构 。sockaddr_dl 结 构 的 链 路 层 地 址 长 度 (sdl_alen) 也 被 设 为 6。 该 赋值 对 于 最 近 创 建 
的 ARP 结 点 是 需要 的 (习题 21-3)。 

8. 更 新 最 近 解 析 的 ARP 结 点 
411-412 在 解析 了 发 送 方 的 硬件 地 址 后 ， 执 行 以 下 步骤 。 如 果 时 限 是 非 零 的 ， 则 将 被 复位 
成 20 分 钟 (arpt_keep)。arp 命 令 可 以 创建 永久 的 ARP 结 点 ， 即 该 结 点 永远 不 会 超时 。 这 些 
ARP 结 点 的 时 限 值 置 为 0。 在 图 21-24 中 我 们 将 看 到 ， 在 发 送 ARP 请 求 ( 非 永 久 性 ARP 结 点 ) 时 ， 
时 限 被 设 为 本 地 时 间 ， 它 是 非 0 的 。 
413-414 清除 RTF REJECT 标 志 ，la asked 计 数 器 设 为 0。 我 们 将 看 到 ， 在 
arprzesolve 中 使 用 最 后 两 个 步骤 是 为 了 防止 ARP 潜 泛 。 
415-420 如 果 ARP 中 保持 有 正在 等 竺 ARP 解析 该 目的 方 硬件 地 址 的 mbuf， 那 么 将 mbuf 送 至 
接口 输出 函数 (如 图 21-1 所 示 )。 由 于 该 mbuf 是 由 ARP 保 持 的 ， 即 目的 地 址 肯定 是 在 以 太 网 上 ， 
所 以 接口 输出 冰 数 应 该 是 ether_outout。 该 函数 也 调用 arpresolve, 但 这 时 硬件 地 址 已 
被 填充 ， 所 以 允许 mbuf 加 入 实际 的 设备 输出 队列 。 

9. 如 果 是 ARP 回 答 分 组 ， 则 返回 
421-426 如 果 该 ARP 操 作 不 是 请 求 ， 那 么 丢弃 接收 到 的 分 组 ， 并 返回 。 

in_arpinput 的 剩 下 部 分 如 图 21-20 所 示 ， 产 生 一 个 对 应 于 ARP 请 求 的 回答 。 只 有 当 以 
下 两 种 情况 时 才 会 产生 ARP 回 答 ; 

1) 本 机 就 是 该 请 求 所 要 查找 的 目的 主机 ， 

2) 本 机 是 该 请 求 所 要 查找 的 目的 主机 的 ARP 代 理 服务 器 。 

国 数 执 行 到 这 个 时 刻 ， 已 经 接收 了 ARP 请 求 ， 但 ARP 请 求 是 广播 发 送 的 ， 所 以 目的 主机 
可 能 是 以 太 网 上 的 任何 主机 。 

10. 本 机 就 是 所 要 查找 的 目的 主机 
427-432 如 果 目 的 IP 地 址 等 于 myaddr， 那 么 本 机 就 是 所 要 查找 的 目的 主机 。 将 发 送 方 硬件 
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地 址 拷贝 到 目的 硬件 地 址 字段 (发 送 方 现在 变 成 了 目的 主机 )，azpcom 结 构 中 的 接口 以 太 网 地 
址 拷贝 到 源 硬件 地 址 字段 。ARP 回 答 中 的 其 余部 分 在 else 语 句 后 处 理 。 


n if ether.c 
427 if (itaddr.s addr == myaddr.s addr) ( 
428 /* I am the target */ 
429 bcopy((caddr t) ea-»arp sha, (caddr t) ea-»arp tha, 
430 sizeof(ea-»arp sha)); 
431 bcopy((caddr t) ac-»ac enaddr, (caddr t) ea-»arp sha, 
432 sizeof(ea-»arp sha)); 
433 ) else ( 
434 la - arplookup(itaddr.s addr, 0, SIN PROXY); 
435 if (la == NULE» 
436 goto out; 
437 rt = la-»la rt; 
438 bcopy((caddr t) ea-»arp sha, (caddr t) ea-»arp tha, 
439 sizeof(ea-»arp sha)); 
440 sdl - SDL(rt-»rt gateway); 
441 bcopy (LLADDR (sdl), (caddr t) ea-»arp sha, sizeof(ea-»arp sha)); 
442 ) 
443 bcopy((caddr t) ea-»arp spa, (caddr t) ea-»arp tpa, sizeof(ea-»arp spa)); 
444 bcopy((caddr t) & itaddr, (caddr t) ea-»arp spa, sizeof(ea-»arp spa)); 
445 ea-»arp op = htons(ARPOP. REPLY); 
446 ea-»arp pro = htons(ETHERTYPE IP); /* let's be sure! */ 
447 eh - (struct ether header *) sa.sa, data; 
448 bcopy((caddr t) ea-»arp tha, (caddr t) eh-»ether dhost, 
449 sizeof(eh-»ether dhost)); 
450 eh-»ether type = ETHERTYPE ARP; 
451 sa.sa family - AF UNSPEC; 
452 sa.sa len = sizeof(sa); | 
453 (*ac-»ac if.if output) (&ac-»ac if, m, &sa, (struct rtentry *) 0); 
454 return; 
455 ) 

if ether.c 


图 21-20 in arpinput 国 数 : 形成 ARP 回 答 ， 并 发 送出 去 


11. 检测 本 机 是 否 目的 主机 的 ARP 代 理 服 务 器 
433-437 即使 本 机 不 是 所 要 查找 的 目的 主机 ， 也 可 能 被 配置 为 目的 主机 的 ARP 代 理 服 务 器 。 
再 次 调用 arplookup 函 数 ， 将 第 二 个 参数 设 为 0， 第 三 个 参数 设 为 SIN_PROXY， 这 将 在 路 由 
表 中 查找 SIN_PROXY 标 志 为 1 的 结 点 。 如 果 查 找 不 到 (这 是 通常 情况 ， 本 机 收 到 了 以 太 网 上 其 
他 ARP 请 求 的 拷贝 )，out 处 的 代码 将 丢弃 mbuf， 并 返回 。 

12. 产生 代理 回答 
437-442 处 理 代 理 ARP 请 求 时 ， 发 送 方 的 硬件 地 址 变 成 目的 硬件 地 址 ，ARP 结 点 中 的 以 太 
网 地 址 拷贝 到 发 送 方 硬件 地 址 。 该 ARP 结 点 中 的 硬件 地 址 可 以 是 以 太 网 中 任 一 台 主 机 的 硬件 
地 址 ， 只 要 它 可 以 向 目的 主机 转发 IP 数 据 报 。 通 常 ， 提 供 代 理 ARP 服 务 的 主机 会 填 人 自己 的 
硬件 地 址 ， 当然 这 不 是 要 求 的 。 代理 ARP 结 点 是 由 系统 管理 员 用 arp 命 令 带 关键 字 pub 创 建 的 ， 
标明 目的 IP 地 址 (这 是 路 由 表 项 的 关键 值 ) 和 在 ARP 回 答 中 返回 的 以 太 网 地 址 。 

13. 完成 构造 ARP 回 答 分 组 
443-444 继续 完成 ARP 回 答 分 组 的 构建 。 发 送 方 和 目标 的 硬件 地 址 已 经 填充 好 了 ， 现 在 交 
换 发 送 方 和 目标 的 卫 地 址 。 目 的 卫 地 址 在 itaddqz 中 ， 如 果 发 现 以 太 网 中 有 其 他 主机 使 用 同一 
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IP 地 址 ， 则 该 值 已 经 被 填充 了 ( 见 图 21-18)。 
445-446 ARP 操作 码 字 段 设 为 ARPOP_REPLY， 协 议 地 址 类 型 设 为 BTHERTYPE IP。 旁 边 
加 了 注释 “你 需要 确定 ， 是 因为 当 协 议 地 址 类 型 为 BTHERTYPE_IPTRRILERS 时 arpintz 
也 会 调用 该 国 数 ， 但 现在 跟踪 封装 (trailer encapsulation) 已 不 再 使 用 了 。 

14. 用 以 太 网 帧 首部 填充 sockaddr 
447-452 sockaddr 结 构 用 14 字 贡 的 以 太 网 帧 首部 填充 ， 如 图 21-12 所 示 。 目 的 硬件 地 址 变 
成 了 以 太 了 网 目的 地 址 。 
453-455 将 ARP 回 答 传送 至 接口 输出 国 数 ， 并 返回 。 


21.9 ARP 定 时 器 函数 


ARP 结 点 一 般 是 动态 的 一 一 需要 时 创建 ， 超 时 时 自动 删除 。 也 允许 管理 员 创建 永久 性 结 
点 ， 前 面 我 们 讨论 的 代理 结 点 就 是 永久 性 的 。 回 忆 一 下 图 21-1 和 图 21-10 中 最 后 的 #define 语 
句 ， 路 由 度量 结构 中 的 xmx_expire 成 员 就 是 用 作 ARP 定 时 器 的 。 


21.9.1 arptimerğ ži 


如 图 21-21 所 示 ， 该 函数 每 5 分 钟 被 调用 一 次 。 它 查看 所 有 ARP 结 点 是 否 超 时 。 


- - if_ether.c 
74 statıc void 
75 arptimer(ignored, arg) 
76 void *ignored arg; 
74 $ 
78 int S = Splnet(); 
79 struct llinfo arp *la - llinfo arp.la next; 
80 timeout(arptimer, (caddr t) 0, arpt prune * hz); 
81 while (la !- &llinfo arp) ( 
82 struct rtentry rt = la-5la.rt; 
83 la = la-»1la next; 
84 if (rt-»rt expire && rt-»rt expire «- time.tv sec) 
85 arptfree(la-»1la prev);  /* timer has expired, clear */ 
86 } 
87 splixís); 
88 ] 

if ether.c 


图 21-21 arptimer 国 数 : 每 5 分 钟 查看 所 有 ARP 定 时 器 


1. 设置 下 一 个 时 限 
80 arp rtrequest 国 数 使 arptimez 畏 数 第 一 次 被 调用 ， 随 后 arptimezr 每 隔 $ 分 钟 
(arpt_prune) 使 自己 被 调用 一 次 。 

2. 查看 所 有 ARP 结 点 
81-86 查看 ARP 结 点 链表 中 的 每 一 个 结 点 。 如 果 定 时 器 值 是 非 零 的 (不 是 一 个 永久 结 点 )， 
而 且 时 间 已 经 超时 ， 那 么 arptfree 就 删除 该 结 点 。 如 果 rt_expire 是 非 零 的 ， 它 的 值 是 从 
结 点 超时 起 到 现在 的 秒 数 。 


21.9.2 arptfreerf 7l 


4nE21-22BpzR, arptfreer&ZtHarptimerrAZREiNH. HHTAsRHZIllinfo dl 表 项 的 
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列表 中 删除 一 个 超时 的 ARP 结 点 。 

1. 使 正在 使 用 的 结 点 无 效 (不 删除 ) 
467-473 如 果 路 由 表 引 用 计数 器 值 大 于 0， 而 且 rt_gatewary 成 员 指 同一 个 
sockaddr dl 结构 ， 则 arptfree 执 行 以 下 步骤 : 

1) 将 链 路 层 地 址 长 度 设 为 0; 

2) 将 la_asked 计 数 左 值 设 为 0; 

3) 清除 RTEF_REUJECT 标 志 。 

随后 函数 返回 。 因 为 路 由 表 引 用 计数 右 值 非 零 ， 所 以 该 路 由 结 点 不 能 删除 。 但 是 将 
sdl_alen 值 设 为 0， 该 结 点 也 就 无 效 了 。 下 次 要 使 用 该 结 点 时 ， 还 将 产生 一 个 ARP 请 求 。 

ee ECC CC DE 


460 arptfree(la) 
461 struct llinfo arp *1la; 


462 ( 

463 struct rtentry *rt = la-»la rt; 

464 struct sockaddr dl *sdl; 

465 if (ft == 0) 

466 panic("arptfree"); 

467 if (rt-»rt refcnt > 0 && (sdl = SDL(rt-»rt gateway)) && 
468 sdl-»sdl family == AF LINK) ( 

469 sdl-»sdl alen = 0; 

470 la-»1la, asked = 0; 

471 rt-»rt flags &= "RTF REJECT; 

472 return; 

473 ) 

474 rtrequest(RTM DELETE, rt key(rt), (struct sockaddr *) 0, rt mask(í(rt), 
475 0, (struct rtentry **) O0); 

476 ) 


if ether.c 
图 21-22 arptfreer&7k: 删除 或 使 一 个 ARP 结 点 无 效 


2. 删除 没有 被 引用 的 结 点 
474-475 rtrequest 删 除 路 由 结 点 ， 在 21.13 市 中 ， 我 们 将 看 到 它 调用 了 arp_ 
rtrequest, arp rtrequest 函 数 释放 所 有 该 ARP 结 点 保持 的 mbuf( 由 la_hold 指 针 所 指 
向 )， 并 删除 相应 的 11info_arp 结 点 。 


21.10 arpresolve 函 数 


在 图 4-16 中 ，ether_output 畏 数 调用 arpresolve 国 数 以 获得 对 应 某 个 IP 地 址 的 以 太 
网 地 址 。 如 果 已 知 该 以 太 网 地 址 ， 则 arpres1love 返 回 值 为 1， 人 允许 将 待 发 卫 数 据 报 挂 在 接口 
输出 队列 上 。 如 果 不 知 道 该 以 太 网 地 址 ， 则 arpresolve 返 回 值 为 0，arpsolve 国 数 利用 
11info_arp 结 构 的 1a_hold 成 员 指 针 “ 保 持 (he1d)” 竺 发 也 数据 报 ， 并 发 送 一 个 ARP 请 求 。 
收 到 ARP 回 答 后 ， 再 将 保持 的 IP 数 据 报 发 送出 去 。 

arpresolve 应 避免 ARP 潜 泛 ， 也 就 是 说 ， 它 不 应 在 疝 未 收 到 ARP 回 答 时 高 速 重 复发 送 
ARP 请 求 。 出 现 这 种 情况 主要 有 两 个 原因 ， 第 一 ， 有 多 个 IP 数 据 报 要 发 往 同一 个 尚未 解析 硬 
件 地 址 的 主机 ， 第 二 ， 一 个 IP 数 据 报 的 每 个 分 片 都 会 作为 独立 分 组 调用 ether_output。 
11.9 节 讨论 了 一 个 由 分 片 引 起 的 ARP 洪 谤 的 例子 及 相关 的 问题 。 图 21-23 显 示 了 arpresolve 
的 前 半 部 分 。 
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252-261 dst 是 一 个 指 癌 sockaddr_in 的 指针 ， 它 包含 目的 IP 地 址 和 对 应 的 以 太 网 地 址 
(一 个 6 字 古 的 数组 )。 


- if_ether.c 
252 int 
253 arpresolve(ac, rt, m, dst, desten) 
254 struct arpcom *ac; 
255 struct rtentry *rt; 
256 struct mbuf *m; 
257 struct sockaddr *dst; 
258 u char *desten; 
259 1 
260 struct llinfo.arp *1la; 
261 struct sockaddr.dl *sdl; 
262 if (m-»m flags & M BCAST) ( /* broadcast */ 
263 bcopy((caddr t) etherbroadcastaddr, (caddr t) desten, 
264 sizeof(etherbroadcastaddr)); 
265 return: (1); 
266 } 
267 if (m-»m flags & M,MCAST) ( /* multicast */ 
268 ETHER, MAP IP MULTICAST(&SIN(dst)-»sin addr, desten); 
269 return (I)e; 
270 ) 
271 ir Art) 
212 lá = (Struct llinfo arb *) rt-»rt.Xilinfo; 
273 else ( 
274 if (la = arplookup(SIN(dst)-»sin addr.s addr, 1, 0)) 
275 rt s la-»la rt; 
276 ) 
277 Zt [FLA =a O [||] EE 5s 0) t 
278 log(LOG DEBUG, "arpresolve: can't allocate llinfo"); 
279 m freem(m); 
280 return (0); 
281 ) 
if ether.c 


图 21-23 arpresolvetK7À: 查找 所 需 的 ARP 结 点 


1. 处 理 广播 和 多 播 地 址 
262-270 如 果 mbuf 的 M_BCAST 标 志 置 位 ， 则 用 以 太 网 广播 地 址 填充 目的 硬件 地 址 字段 ， 函 
数 返回 1 。 如 果 M_MCAST 标 志 置 位 ， 则 宏 ETHER MAP IP MULTICAST( 图 12-6) 将 D 类 地 址 映 
射 为 相应 的 以 太 网 地 址 。 

2. 得 到 指 问 11info_arp 结 构 的 指针 
271-276 目的 地 址 是 单 播 地 址 。 如 果 调 用 者 传输 了 一 个 指向 路 由 表 结 点 的 指针 ， 则 将 1a 设 
置 为 相应 的 11info_arp 结 构 。 否 则 ，arplookup 根 据 给 定 IP 的 地 址 搜索 路 由 表 。 第 二 个 参 
数 是 1， 告 诉 arplookup 如 果 搜 索 不 到 相应 的 ARP 结 点 就 创建 一 个 新 的 ， 第 三 个 参数 是 0， 即 
意味 着 不 去 查找 代理 ARP 结 点 。 
277-281 如 果 rt 或 la 中 有 一 个 是 空 指 针 ， 说 明 刚 才 请 求 分 配 内 存 时 失败 ， 因 为 即使 不 存在 
已 有 结 点 ，arplookup 也 已 经 创建 了 一 个 ，rt 和 1a 都 不 应 是 空 值 。 记 录 一 个 差错 报 文 ， 释 
放 分 组 ， 函 数 返 回 0。 

图 21-24 显 示 了 arpresolve 的 后 半 部 分 。 它 检查 ARP 结 点 是 否 有 效 ， 如 无 效 ， 则 发 送 一 
个 ARP 请 求 。 
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if ether.c 
282 sdl - SDL(rt-»rt gateway); 
283 A 
284 * Check the address family and length is valid, the address 
285 * is resolved; otherwise, try to resolve. 
286 da 
287 lf ((rt-»rt expire == 0 |] rt-»rt expire > time.tv sec) && 
288 sdl-»sdl family == AF LINK && sdl-»sdl alen !- 0) ( 
289 bcopy (LLADDR(sdl), desten, sdl-»sdl alen); 
290 return 1; 
291 ) 
292 /? 
293 * There is an arptab entry, but no ethernet address 
294 * response yet. Replace the held mbuf with this 
295 * latest one. 
296 *N 
297 if (la-»1a hold) 
298 m freem(la-»1la, hold); 
299 la-»1a, hold = m; 
300 if (rt-»rt expire) ( 
301 rt-»rt flags &- "RTF REJECT; 
302 if (la-»1la asked == 0 || rt-»rt expire l= time.tv sec) ( 
303 rt-»rt expire - time.tv sec; 
304 if (la->la_asked++ < arp maxtries) 
305 arpwhohas(ac, &(SIN(dst)-»sin addr)); 
306 else ( 
307 rt-»rt flags |- RTF.REJECT; 
308 rt-»rt expire += arpt down; 
309 la-»1a asked = 0; 
310 ) 
311 ) 
312 ) 
313 return (0); 
314 ] 
if ether.c 
图 21-24 arpresolve 函 数 : 检查 ARP 结 点 是 否 有 效 ， 如 无 效 ， 则 发 送 一 个 ARP 请 求 
3. 检查 ARP 结 点 的 有 效 性 
282-291 即使 找到 了 一 个 ARP 结 点 ， 还 需 检查 其 有 效 性 。 如 以 下 条 件 成 立 ， 则 ARP 结 点 是 
有 效 的 : 


1) 结 点 是 永久 有 效 的 (时 限 值 为 0)， 或 尚未 超时 ， 

2) 由 rt _ gateway 指 问 的 插口 地 址 结构 的 sdl family fR ÄAF_LINK; 

3) 链 路 层 地 址 长 度 值 (sdl_alen) 不 等 于 0。 

arptfree 使 一 个 仍 被 引用 的 ARP 结 点 失效 的 方法 是 将 sdl_alen 值 置 0。 如 果 结 点 是 有 
效 的 ， 则 将 sockaddr_d1l 中 的 以 太 网 地 址 拷贝 到 desten， 函 数 返 回 1。 

4. 只 保持 最 近 的 IP 数 据 报 
292-299 ”此 时 , 已 经 有 了 ARP 结 点 ,但 它 没 有 一 个 有 效 的 以 太 网 地 址 ， 因 此 ， 必 须发 类 一 
个 ARP 请 求 。 将 1a_hold 指 针 指 向 mbuf， 同 时 也 就 释放 了 刚才 la_hold 所 指 的 内 容 。 这 意味 
着 ， 在 发 送 ARP 请 求 到 收 到 ARP 回 答 之 间 ， 如 果 有 多 个 发 往 同一 目的 地 的 IP 数 据 报 要 发 送 ， 
只 有 最 近 的 一 个 IP 数 据 报 才 被 1a_hold 保 留 ， 之 前 的 全 部 丢弃 。NFS 就 是 这 样 的 一 个 例子 ， 
如 果 NEFS 要 传送 一 个 8500 字 节 的 IP 数 据 报 ， 需 要 将 其 分 割 成 6 个 分 片 。 如 果 每 个 分 请 都 在 发 送 
ARP 请 求 到 收 到 ARP 回 答 之 间 由 ip- output 送 往 ether_output, 那么 前 5 个 分 片 将 被 丢弃 ， 
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当 收 到 ARP 回 答 时 ， 只 有 最 后 一 个 分 片 被 保留 了 下 来 。 这 会 使 NFS 超 时 ， 并 重 发 这 6 个 分 片 。 

S. 发 送 ARP 请 求 ， 但 避免 人 ARP 洪 记 
300-314 RFC 1122 要 求 ARP 避 免 在 收 到 ARP 回 答 之 前 以 过 高 的 速度 对 一 个 以 太 网 地 址 重 发 
ARP 请 求 。Net/3 采 用 以 下 方法 来 避免 ARP 洪 汉 : 

*Net/3 不 在 同一 秒 钟 内 发 送 多 个 对 应 同一 目的 地 的 ARP 请 求 ， 

。 如果 在 连续 5 个 ARP 请 求 ( 也 就 是 5 秒 钟 ) 后 还 没有 收 到 回答 ， 路 由 结 点 的 RTF_REJECT 标 

志 置 1， 时 限 设 为 往 后 的 20 秒 。 这 会 使 sther_output 在 20 秒 内 拒绝 发 往 该 目的 地 址 的 

IP 数 据 报 ， 并 返回 EHOSTDOWN 或 EHOSTUNREACH( 如 图 4-15 所 示 )。 

。20 秒 钟 后 ，arpresolve 会 继续 发 运 该 目的 主机 的 ARP 请 求 。 

如 果 时 限 值 不 等 于 0( 非 永久 性 结 点 )， 则 清除 RTF_REJECT 标 志 ， 该 标志 是 在 早 些 时 候 为 
避免 ARP 洪 泛 而 设置 的 。 计 数 姻 1a te E 如 
果 计 数 器 值 为 0 或 时 限 值 不 等 于 当前 时 钟 ( 只 需 看 一 下 当前 时 钟 的 秒 钟 部 分 )， 那 么 需要 再 发 送 
一 个 ARP 请 求 。 这 就 避免 了 在 同一 种 钟 内 发 送 多 个 ARP 请 求 。 ee 
秒 钟 部 分 (也 就 是 微 秒 部 分 ，time_tv_usec 被 忽略 )。 

将 1a_asked 所 含 计数 器 值 与 限定 值 S(arp_maxttries) 比 较 ， 然 后 加 1。 如 条 小 于 5， 则 
arpwhohas 发 送 ARP 请 求 ， 如 果 等 于 5, 则 ARP 已 经 达到 了 限定 值 : 将 RTF_REJECT 标 志 置 1 
时 限 值 置 为 往 后 的 20 秒 钟 ，la asked 计 数 器 值 复位 为 0。 

图 21-25 显 示 了 一 个 例子 ， 进 一 步 解 释 了 人 arpresolve 和 ether output 为 了 如 人 匈 ARP 
洪 泛 所 采用 的 算法 。 


数据 报 数 1 2 3 5 6 I 9» 9 IO JI 17 13 H 49 50 51 52 


ARP ARP ARP ARP ARP 


NE E Ee s 返回 RE 
请 求 请 求 请 求 请 求 请 求 


RTF REJECT EHOSTDOWN 请 求 


打开 
图 21-25 避免 ARP 洪 泛 所 采用 的 算法 


图 中 总 共 显 示 了 26 秒 的 上 时间， 从 10 到 36。 我 们 假定 有 一 个 进程 每 隔 0.5 秒 发 送 一 个 IP 数 据 
报 ， 也 就 是 说 ， 一 秒 钟 内 有 两 个 数据 报 等 待 发 送 。 数 据 报 依次 被 标号 为 1~52。 我 们 还 假定 目 
的 主机 已 经 关闭 ， 所 以 收 不 到 ARP 回 答 。ARP 将 采取 以 下 行动 : 

* 假定 当 进 程 写 数据 报 1 时 1a_asked 的 值 为 0。1la_hold 设 为 指向 数据 报 1,，rt_expire 

值 设 为 当前 时 钟 (10)，1a_askeqd 值 变 为 1， 发 送 ARP 请 求 。 图 数 返 回 0。 

。 进 程 写 数据 报 2 时 ， 丢 弃 数 据 报 1，1a_holda 指 各 数据 报 2。 由 于 zt_expire 值 等 于 当 

前 时 钟 (10)， 所 以 不 发 送 ARP 请 求 ， 国 数 返 回 ， 返 回 值 为 0。 

。 进程 写 数据 报 3 时 ， 丢 弃 数 据 报 2，1a_holda 指 加 数据 报 3。 由 于 当前 时 钟 (11) 不 等 于 

rt_expire(10)， 所 以 将 zt_expire 设 为 11。1a_asked 值 为 1， 小 于 $， 所 以 发 送 

ARP 请 求 ， 并 将 la asked & 2, | 

。 进程 写 数据 报 4 时 ， 丢 弃 数 据 报 3，1a_hola 指 向 数据 报 4。 由 于 zt_expizre 值 等 于 当 
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前 时 钟 (11)， 所 以 无 须 其 他 动作 ， 国 数 返回 0。 


* 对 于 数据 报 5~10， 情 况 都 是 一 样 的。 在 数据 报 9 到 达 后 ， 发 送 ARP 请 求 后 ，la_asked 
值 被 设 为 5， 

。 进 程 写 数据 报 11 时 ， 丢 弃 数 据 报 10，1a_hola 指 向 数据 报 11。 当 前 时 钟 (15) 不 等 于 
rt expire(14)， 所 以 将 rt expire 的 值 设 为 15。 此 时 la asked 的 值 不 再 小 于 5， 
ARP 人 避免 洪 泛 的 算法 开始 作用 : RTF_REJECT 标 志 位 置 1!|，rt_expire 的 值 被 设 为 
35( 即 往 后 20 秒 )，1la asked 的 值 设 为 0， 函 数 返 回 0。 

。 进程 写 数 据 报 12 时 ，ether _ output 注 意 到 RTF _ REJECT 标志 位 为 1， 而 且 当 前 时 钟 小 
于 rt _ expire(35)， 因 此 ， 返 回 EHOSTDOWN 给 发 送 者 ( 通 篆 是 ip output), 

。 从 数据 报 13 到 50， 都 返回 EHOSTDOWN 给 发 送 者 。 

。 当 进程 写 数据 报 31 时 ， 尽 管 此 时 的 RTF_REJECT 标 志 位 仍然 为 1， 但 当前 时 钟 的 值 (35) 
不 再 小 于 rt_expire(35)， 因 此 不 会 返回 出 错 信 息 。 调 用 arpresolve， 整 个 过 程 重 
新 开始 ，5 秒 钟 内 发 送 5 个 ARP 请 求 ， 然 后 是 20 秒 钟 的 等 待 ， 直 到 发 送 者 放弃 或 目的 主机 
啊 应 ARP 请 求 。 


21.11 arplookup 函 数 


arplookup 函 数 调用 选 路 冰 数 rtallocl 在 Internet 路 由 表 中 查找 ARP 结 点 。 我 们 已 经 看 


到 过 3 次 调用 arplookup 的 情况 : 


占 


dy D 


1) 在 in_arpinput 中 ， 在 接收 到 ARP 分 组 后 ， 对 应 源 卫 地 址 查找 或 创建 一 个 ARP 结 点 。 
2) 在 in_arpinput 中 ， 接 收 到 ARP 请 求 后 ， 查 看 是 否 存在 目的 硬件 地 址 的 代理 ARP 结 


3) 在 arpzresolve 中 ， 查 找 或 创建 一 个 对 应 待 发 送 数据 报 耳 地址 的 ARP 结 点 。 
如 果 arplookup 执 行 成 功 ， 则 返回 一 个 指向 相应 11info_arp 结 构 的 指针 ， 否 则 返回 一 


个 空 指针 。 


arplookup 带 有 三 个 参数 ， 第 一 个 参数 是 目的 IP 地 址 ， 第 二 个 参数 是 个 标志 ， 为 真 时 表 


示 耕 找 不 到 相应 结 扩 就 创建 一 个 新 的 结 上 把， 第 三 个 参数 也 是 一 个 标志 ， 为 真 时 表示 查找 或 创 
建 代理 ARP 结 点 。 


代理 ARP 结 上 扩 通 过 定义 一 个 不 同形 式 的 Internet 插 口 地 址 结构 来 处 理 ， 即 sockaddr | 


inarp 结 构 ， 如 图 21-26 所 示 。 该 结构 只 在 ARP 中 使 用 。 


- if_ether.h 
111 struct sockaddr inarp { 
112 u_char sin len; /* sizeof(struct sockaddr inarp) = 16 */ 
113 u_char sin family; /* AF INET *J/ 
114 u short sin port; 
115 struct in_addr sin, addr; /* IP address */ 
116 struct in addr sin srcaddr; /* not used */ 
117 u short sin, tos; /* not used */ 
118 u short sin other; /* 0 or SIN.PROXY *J/ 
119 } 

if ether.h 


21-26 sockaddr inarp 结 构 


111-119 前 面 8 个 字 市 与 sockaddr _ in 结构 相同 ，sin family 被 设 为 AF INET。 最 后 8 
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个 字 节 有 所 不 同 : sin srcaddr、sin tos 和 sin other 成 员 。 当 结 点 作为 代理 结 点 时 ， 
只 用 到 sin other 成 员 ， 并 将 其 设 为 SIN_PROXY(1)。 
图 21-27 显 示 f arplookuprR7, 


- if_ether.c 
480 static struct llinfo arp * 
481 arplookup(addr, create, proxy) 
482 u long  addr; 
483 int create, proxy; 
484 ( 
485 struct rtentry *rt; 
486 static struct sockaddr inarp sin - 
487 {sizeof (sin), AF, INET); 
488 sin.sin addr.s addr = addr? 
489 sin.sin other = proxy ? SIN PROXY : 0; 
490 rt = rtalloci((struct sockaddr *) &sin, create); 
491 if [rb == D) 
492 return (0); 
493 rt-»rt refcnt--; 
494 if ((rt-»rt flags & RTF GATEWAY) || (rt-»rt flags & RTF LLINFO) == 0 |l 
495 rt-»rt gateway-»sa family !- AF LINK) ( 
496 if (create) 
497 log(LOG DEBUG, "arptnew failed on $xWMn", ntohl(addr)); 
498 return (0); 
499 ) 
500 return ((struct llinfo.arp *) rt-»rt.llinfo); 
501 ) 

if ether.c 


图 21-27 arplookuptK7&: 在 路 由 表 中 查找 ARP 结 点 


1. 初始 化 sockaddr inarp 结 构 ， 准 备查 找 
480-489 sin addr 成 员 设 为 将 要 查找 的 IP 地 址 。 如 果 proxy 参 数值 不 为 0， 则 
sin other 成 员 设 为 SIN_PROXY; 否则 设 为 0。 

2. 路 由 表 中 查找 结 点 
490-492 rtallocl 在 Internet 路 由 表 中 查找 IP 地 址 ， 如 果 create 参 数值 不 为 0， 就 创 
建 一 个 新 的 结 点 。 如 果 找 不 到 结 点 ， 则 函数 返回 值 为 0( 空 指针 )。 

3. 减少 路 由 表 结 点 的 引用 计数 值 
493 如果 找到 了 结 点 ， 则 减少 路 由 表 结 点 的 引用 计数 。 因 为 ， 此 时 ARP 不 再 被 认为 像 运 输 层 一 
样 “ 持 有 ”路 由 表 结 点 ， 因 此 ， 路 由 表 查 找 时 对 zt_refcnt 计 数 的 递增 ， 应 在 这 里 由 ARP 取 消 。 
494-499 如果 将 标志 RTF GATEWAY 置 位 ， 或 者 标志 RTF _ LLINFO 没 有 置 位 ， 或 者 由 
rt_gateway 指 向 的 插口 地 址 结构 的 地 址 族 字段 值 不 是 AF_LINK， 说明 出 了 某 些 差 错 ， 返 回 
一 个 空 指针 。 如 果 结 点 是 这 样 创建 的 ， 应 创建 一 个 记录 报 文 。 

记录 报 文中 对 arptnew 的 注释 是 针对 老 版 本 Net/2 中 创建 ARP 结 点 的 。 


如 果 rtallocl 由 于 匹配 结 点 的 RTF_CLONING 标 志 置 位 而 创建 一 个 新 的 结 上 把， 那么 负数 
arp rtrequest (21.13 节 ) 也 要 被 ztzrequest 调 用 。 


21.12 代理 ARP 
Net/3 支 持 代理 ARP， 有 两 种 不 同类 型 的 代理 ARP 结 点 ， 可 以 通过 arp 命令 及 Pub 选 项 将 
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它们 加 入 到 路 由 表 中 。 添 加 代理 ARP 选 项 会 使 arp_rtrequest 主 动 发 送 动态 联 编 信 息 ( 如 图 
21-28 所 示 )， 因 为 在 创建 结 点 时 RTF_ANNOUNCE 标 志 位 被 置 1。 

代理 ARP 结 点 的 第 一 种 类 型 : 它 允 许 将 网 络 内 的 某 一 主机 的 IP 地 址 填 人 到 ARP 高 速 缓存 
内 。 硬 件 地 址 可 以 设 为 任意 值 。 这 种 结 点 加 入 到 路 由 表 中 时 使 用 了 直接 的 掩 码 0xffffffff。 
加 掩 码 的 目的 是 即使 插口 地 址 的 SIN_PROXY 标 志 位 为 1， 在 调用 图 21-27 中 的 rtallocl 时 能 
与 该 结 点 匹配 。 于 是 在 调用 图 21-20 中 的 arzplookup 时 也 能 与 该 结 点 匹配 ， 目 的 地 址 的 
SIN PROXY 置 位 。 

如 果 本 网 中 的 主机 H1 不 能 实现 ARP， 那 么 可 以 使 用 这 种 类 型 的 代理 ARP 结 点 。 作 为 代理 
的 主机 代替 Hl 回答 所 有 的 ARP 请 求 ， 同 时 提供 创建 代理 ARP 结 点 时 设 定 的 硬件 地 址 (比如 可 以 
是 H1 的 以 太 网 地 址 )。 这 种 类 型 的 结 点 可 以 通过 arp -amQ SUB. CH published" F5., 

第 二 种 类 型 的 代理 ARP 结 点 用 于 已 经 存 有 路 由 表 结 点 的 主机 。 内 核 为 该 目的 地 址 创建 另 
外 一 个 路 由 表 结 点 ， 在 这 个 新 的 结 点 中 含有 链 路 层 的 信息 (如 以 太 网 地 址 )。 该 新 结 点 中 
sockaddr inarp 结构 (图 21-26) 的 sin_othez 成 员 的 SIN_PROXY 标 志 置 位 。 回 想 一 下 ， 
搜索 路 由 表 时 是 比较 12 字 贡 的 Internet 揪 口 地 址 (图 18-39)。 只 有 当 该 结构 的 最 后 8 字 有 东非 零 时 ， 
才 会 用 到 SIX PROXY 标 志 位 。 当 arplookup 指 定 送 往 rtallocl 的 结构 中 的 sijn_other 成 
员 中 SIN_PROXY 的 值 时 ， 只 有 路 由 表 中 那些 匹配 的 结 点 的 SIN_PROXY 标 志 置 位 。 

这 种 类 型 的 代理 ARP 结 点 通常 指 明了 作为 代理 ARP 服 务 右 的 以 太 网 地 址 。 如 有 果 茶 代理 
ARP 结 点 是 为 主机 HD 创 建 的 ， 一 般 有 以 下 步骤 : 

1) 代理 服务 器 收 到 来 自主 机 HS 的 查找 HD 硬件 地 址 的 广播 ARP 请 求 ， 主 机 HS 认为 HD 在 本 
地 网 上 ， 

2) 代理 服务 器 回答 请 求 ， 并 提供 本 机 的 以 太 网 地 址 ，; 

3) HS 将 发 往 HD 的 数据 报 发 送 给 代理 服务 强 ， 

4) 收 到 发 往 HD 的 数据 报 后 ， 代 理 服务 絮 利 用 路 由 表 中 关于 HD 的 信息 将 数据 报 转发 给 HD，。 

路 由 器 netb 使 用 这 种 类 型 的 代理 ARP 结 点 ， 见 卷 1 4.6 市 中 的 例子 。 可 以 通过 命令 arp - 
a 来 查看 这 些 带 有 “published (proxy only)” 的 结 点 。 


21.13 arp rtrequest 函 数 


图 21-3 人 简要 显示 了 ARP 函 数 和 选 路 函数 之 间 的 关系 。 在 ARP 中 ， 我 们 将 调用 两 个 路 由 表 
ER A: 

1l) arplookup 调 用 rtallocl 查 找 ARP 结 点 ， 如 果 找 不 到 匹配 结 点 ， 则 创建 一 个 新 的 
ARP 结 点 。 


如 果 在 路 由 表 中 找到 了 匹配 结 点 ， 且 该 结 点 的 RTE CLONING 标 志 位 没有 置 位 
( 即 该 结 点 就 是 目的 主机 的 结 点 )， 则 返回 该 结 点 。 如 果 RTE_CLONING 标 志 位 被 置 位 ， 
rtalloc1l 以 RTM RESOLVE 命 令 为 参数 调用 rtrequest。 图 18-2 中 的 
140.252.13.33 和 140.252.13.34 结 点 就 是 这 么 创建 的 ， 它 们 是 从 140.252.13.32 的 结 点 复 
制 而 来 的 。 
2) arptfree[ARTM DELETE 命 令 为 参数 调用 rtrequest， 删 除 对 应 ARP 结 点 的 路 由 表 


此 外 ，arp 命 令 通 过 发 送 和 接收 路 由 插口 上 的 路 由 报 文 来 操纵 ARP 高 速 缓存 。arp 以 命令 
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RTM RESOLVE, RTM DELETE 和 RT GET 为 参数 发 布 路 由 信息 。 前 两 个 参数 用 于 调用 
rtrequest， 第 二 个 参数 用 于 调用 rtallocl。 

最 后 ， 当 以 太 网 设备 驱动 程序 获得 了 赋予 该 接口 的 卫 地 址 后 ,ztinit 增 加 一 个 网 络 路 由 。 
于 是 rtrequest 函 数 被 调用 ， 参 数 是 RTM_ADD， 标 志 位 是 RTF_UP 和 RTF CLONING。 图 18- 
2 中 140 252 13 32 结 点 就 是 这 么 创建 的 。 

在 第 19 章 中 我 们 讲 过 ， 每 一 个 ifaddr 结 构 都 有 一 个 指向 函数 (ifa_rtrequest 成 员 ) 的 
指针 ,该 函数 在 创建 或 删除 一 个 路 由 表 结 点 时 被 自动 调用 。 在 图 6-17 中 ， 对 于 所 有 以 太 网 设备 ， 
in_ifinit 将 该 指针 指 癌 arp_rtrequest 函 数 。 因 此 ， 当 调用 路 由 函数 为 ARP 创 建 或 删除 
路 由 表 结 点 时 ， 总 会 调用 arp_rtrequest。 当 任意 路 由 表 函 数 被 调用 时 ,arp_rtrequest 
图 数 的 作用 是 做 各 种 初始 化 或 退出 处 理 所 需 的 工作 。 例 如 : 当 创 建新 的 ARP 结 点 时 ， 
arp_rtrequest 内 要 为 11info_arp 结 构 分 配 内 存 。 同 样 ， 当 路 由 函数 处 理 完 一 个 
RTM_DELETE 命 令 后 ，arp_rtrequest 的 工作 是 删除 11info arp 结 构 。 

图 21-28 显 示 了 arPp_rtredquest 国 数 的 第 一 部 分 。 


if ether.c 
92 void 
93 arp rtrequest(req, rt, sa) 
94 int req; 


95 struct rtentry *rt; 
96 struct sockaddr *sa; 


97 ( 
98 struct sockaddr *gate - rt-»rt gateway; 
99 struct llinfo.arp *la = (struct llinfo.arp *) rt-»rt llinfo; 
100 Static struct sockaddr dl null sdl - 
101 (sizeof(null sdl), AF LINK); 
102 if (!arpinit done) ( 
103 arpinit, done = 1; 
104 timeout(arptimer, (caddr t) O0, hz); 
105 ) 
106 if (rt-»rt flags & RTF GATEWAY) 
107 return; 
108 switch (req) ( 
109 case RTM ADD: 
110 A 
111 * XXX: If this is a manually added route to interface 
112 * such as older version of routed or gated might provide, 
113 * restore cloning bit. 
114 d i 
115 if ((rt-»rt flags & RTF HOST) == 0 && 
116 SIN(rt mask(rt))-»sin addr.s addr !- Oxffffffff) 
117 rt-»rt flags |= RTF. CLONING; 
118 if (rt-»rt flags & RTF CLONING) ( 
119 人 
120 * Case 1: This route should come from a route to iface. 
121 ay 
122 rt setgate(rt, rt key(rt), 
123 (struct sockaddr *) &null, sdl); 
124 gate - rt-»rt gateway; 
125 SDL(gate)-»sdl type = rt-»rt ifp-»if type; 
126 SDL(gate)-»sdl index = rt-»rt ifp-»if index; 
127 rt-»rt expire - time.tv sec; 


图 21-28 arp rtredquest 国 数 : RTM ADD 命 令 
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128 break; 

129 ) i 

130 /* Announce a new entry if requested. */ 

131 if (rt-»rt flags & RTF ANNOUNCE) 

L32 arprequest((struct arpcom *) rt-»rt ifp, 

133 &SIN(rt key(rt))-»sin addr.s addr, 
134 &SIN(rt key(rt))-»sin addr.s addar, 
135 (u char *) LLADDR(SDL(gate))); 

136 /* FALLTHROUGH */ 


if ether.c 
图 21-28 (£x) 


1. 初始 化 ARP timeout Až 
92-105 第 一 次 调用 arp_rtrequest 国 数 时 (系统 初始 化 阶段 ， 在 对 第 一 个 以 太 网 接口 赋 卫 
地 址 时 )，timeout 函数 在 一 个 时 钟 滴答 内 调用 arptimer 函 数 。 此 后 ，ARP 定 时 器 代码 每 5 
分 钟 运行 一 次 ， 因 为 arpt imer 总 是 要 调用 timeout 的 。 

2. 忽略 间接 路 由 
106-107 如 果 将 标志 RTF_GATEWAY 置 位 ， 则 函数 返回 。RTF GATEWAY 标 志 表 明 该 路 由 表 
结 点 是 间接 的 ， 而 所 有 ARP 结 点 都 是 直接 的 。 
108 一 个 带 有 三 种 可 能 的 switch 语 句 : RTM ADD, RTM RESOLVE 和 RTM DELETE (后 两 
种 在 后 面 的 图 中 显示 )。 

3. RTM_ADD RAA 
109 RTM_ADD 命 令 出 现在 以 下 两 种 情况 中 : 执行 arp 命 令 手 工 创 建 ARP 结 点 或 者 ztinit 国 
数 对 以 太 网 接口 赋 I 卫 地 址 (图 21-3)。 

4. 回 后 兼容 
110-117 大 标志 RTE_HOST 没 有 置 位 ， 说 明 该 路 由 表 结 点 与 一 个 掩 码 相 关 ( 也 就 是 说 是 网 络 
路 由 ， 而 非 主机 路 由 )。 如 果 掩 码 不 是 全 1， 那 么 该 结 点 确实 是 某 一 接口 的 路 由 ， 因 此 ， 将 标 
志 RTF_CLONING 置 位 。 如 注释 中 所 述 ， 这 是 为 了 与 某 些 旧 版 本 的 路 由 守护 程序 兼容 。 此 外 ， 
/etc/netstart 中 的 命令 : 

route add -net 224.0.0.0 -interface bsdi 
为 图 18-2 所 示 网 络 创建 带 有 RTF_CLONING 标 志 的 路 由 表 结 点 。 

5. 初始 化 到 接口 的 网 络 路 由 结 点 
118-126 若 标 志 RTF_CLONING(in ifinit 为 所 有 以 太 网 接口 设置 该 标志 ) 置 位 ， 那 么 该 
路 由 表 结 点 是 由 rtinit 添 加 的 。rt_setgate 为 sockaddr_d1l 结 构 分 配 空间 ， 该 结构 由 
rt_gateway 指 针 所 指 。 与 图 21-1 中 140.252.13.32 的 路 由 表 结 点 相关 的 就 是 该 数据 链 路 插口 
地 址 结构 。sdl_family 和 sdl_len 成 员 的 值 是 根据 静态 定义 的 null_sd 而 初始 化 的 ， 
sdl type( 可 能 是 IFT ETHER) 和 sdl index 成 员 的 值 来 自 接口 的 jfnet 结 构 。 该 结构 不 
包含 以 太 网 地 址 ，sdl_alen 成 员 的 值 为 0。 
127-128 最 后 将 时 限 值 设 为 当前 时 间 ， 也 就 是 结 点 的 创建 时 间 ， 执 行 bpreak 后 返回 。 对 于 
在 系统 初始 化 时 创建 的 结 点 ， 它 们 的 rmx_expire 值 为 系统 启动 的 时 间 。 注 意 ， 图 21-1 中 该 
路 由 表 结 点 没有 相应 的 11info_arp 结 构 ， 所 以 它 不 会 被 arptimer 处 理 。 但 是 要 用 它 的 
sockaddr_dl 结 构 ， 对 于 以 太 网 中 特定 主机 的 路 由 结 点 来 说 ， 要 复制 的 是 rt_gateway 结 
构 ， 用 RTM_RESOLVE 命 令 参 数 创 建 路 由 表 结 点 时 ，rtrequest 复 制 该 结构 。 此 外 ， 
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netstat 程 序 将 sdl index 的 值 输出 为 ] ijnk#n， 见 图 18-2。 

6. 发 送 免 费 ARP 请 求 
130-135 若 将 标志 RTEF_RNNOUNCE 置 位 ， 则 该 结 点 是 由 arp 命 令 带 Pub 选项 创建 的 。 该 选 
项 有 两 个 分 支 : (1) sockaddr inarp 结 构 中 sin other 成 员 的 SIN_PROXY 标 志 被 置 位 ， 
(2) 标 志 RTF ANNOUNCE 被 置 位 。 因 为 标志 RTF_ANNOUNCE 被 置 位 ， 所 以 arprequest 广 播 
免费 ARP 请 求 。 注 意 ， 第 二 个 和 第 三 个 参数 是 相同 的 ， 即 该 ARP 请 求 中 ， 发 送 方 IP 地 址 和 目 
的 方 IP 地 址 是 一 样 的 。 

136 继续 执行 针对 RTM RESOLVE 命 令 的 case 语 句 。 

图 21-29 显 示 了 arp rtrequest 函 数 的 第 二 部 分 ， 处 理 RTM RESOLVE 命 令 。 当 
rtallocl 找 到 一 个 RTF _CLONING 标 志 位 置 位 的 路 由 表 结 点 且 rtallocl 的 第 二 个 参数 值 
(arplookup 的 create 参 数 ) 不 为 0 时 ， 调 用 该 命令 。 需 要 分 配 一 个 新 的 11info arp 结 构 ， 
并 将 其 初始 化 。 


if_ether.c 
L3 1 case RTM RESOLVE: 
138 if (gate-»sa family !- AF LINK || 
139 gate-»sa len < sizeof(null.sd1)) { 
140 log(LOG DEBUG, "arp rtrequest: bad gateway value"); 
141 break; 
142 ) 
143 SDL(gate)-»sdl type = rt-»rt ifp-»if type; 
144 SDL(gate)-»sdl index = rt-»rt ifp-»if index; 
145 if (la le 9j 
146 break; /* This happens on a route change */ 
147 p 
148 * Case 2: This route may come from cloning, or a manual route 
149 * add with a LL address. 
150 adi 
151 R Malloc(la, struct llinfo arp *, sizeof(*la)); 
152 rt-»rt llinfo = (caddr t) la; 
153 If (la == Oy 1 
154 log(LOG DEBUG, "arp rtrequest: malloc failedWMn"); 
155 break; 
156 } 
157 arp inuse-«-«, arp allocated-«-*; 
158 Bzero(la, sizeof(*la)); 
159 lag-»la rt = rt: 
160 frt-srt Flags |= RTF_LLINFO; 
161 insque(la, &llinfo arp); 
162 if (SIN(rt key(rt))-»sin, addr.s addr == 
163 (IA SIN(rt-»rt, ifa))-»sin addr.s, addr) ( 
164 £?* 
165 * This test used to be 
166 * if l(lolf.if flags & IFF UP) 
167 * Tt allowed local traffic to be forced 
168 * through the hardware by configuring the loopback down. 
169 * However, it causes problems during network configuration 
170 * for boards that can't receive packets they send. 
171 * It is now necessary to clear "useloopback" and remove 
172 * the route to force traffic out to the hardware. 
173 a. | 
174 rt-»rt expire - 0; 


图 21-29 arp rtrequestiK2y; RTM RESOLVE 命 令 
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175 Bcopy ( ( (struct arpcom *) rt->rt_ifp)->ac_enaddr, 
176 LLADDR(SDL(gate)), SDL(gate)-»sdl alen = 6); 
177 if (useloopback) 

178 rtssrt Ifo = Qibla 

179 } 

180 break; 


if_ether.c 
图 21-29 ( 续 ) 


7. 验证 sockaddr dl 结构 
137-144 验证 rt_gateway 指 针 所 指 的 sockaddr_d1l 结 构 的 sa_family 和 sa len 成 员 
的 值 。 接 口 类 型 (可 能 是 IFT_ETHER) 和 索引 值 填 人 新 的 sockaddr_d1 结 构 。 

8. 处 理 路 由 变化 
145-146 正常 情况 下 ,该 路 由 表 结 点 是 新 创建 的 ， 并 没有 指向 一 个 11info_arp 结 构 。 如 
果 1la 指 针 非 空 ， 则 在 路 由 已 发 生 了 变化 时 调用 arp_rtrequest。 此 时 11info_arp 已 经 分 
配 ， 执 行 break， 国 数 返 回 。 

9. 初始 化 11info arp 结 构 
147-158 分 配 一 个 ll1info_arp 结 构 ，rt_11info 中 存 有 指向 该 结构 的 指针 。 统 计 值 变 
量 arp inuse 和 arp allocated 各 加 1，11info arp 结 构 置 0。 将 la hold 指 针 置 空 ， 
la asked[H &0, 
159-161 将 zt 指针 存储 于 11info arp 结构 中 ， 置 RTF LLINFO 标 志 位 。 如 图 18-2 所 示 ， 
ARP 创 建 的 三 个 结 点 140.252.13.33、140.252.13.34 和 140.252.13.35 都 有 工 标 志 ， 和 240.0.0.1 一 
样 。arp 程 序 只 检查 该 标志 (图 19-36)。 最 后 jnsque 将 11info_arp 加 入 到 链接 表 的 首部 。 

就 这 样 创建 了 一 个 ARP 结 点 : rtrequest 创 建 路 由 表 结 点 (经 党 为 以 太 网 克隆 一 个 特定 
网 络 的 结 点 )，arp_rtrequest 分 配 和 初始 化 11info_arp 结 构 。 剩 下 只 需 广 播 一 个 ARP 请 
求 ， 在 收 到 回答 后 填充 主机 的 以 太 网 地 址 。 事 件 发 生 的 一 般 次 序 是 : arpresolve 调 用 
arplookup, 于 是 arp_rtrequest 被 调用 (中 间 可 能 跟 有 函数 调用 ， 见 图 21-3)。 当 控制 返 
回 到 arpzresolve 时 ， 发 送 ARP 广 播 请 求 。 

10. 处 理发 给 本 机 的 特例 情况 
162-173 这 是 4.4BSD 新 增 的 测试 特例 部 分 (注释 是 老 版 本 留 下 的 )。 它 创建 了 图 21-1 中 最 右 
边 的 路 由 表 结 点 ， 该 结 点 包含 了 本 机 的 IP 地 址 (140.252.13.35)。if 语 句 检 测 它 是 否 等 于 本 机 IP 
地 址 ， 如 等 于 ， 那 么 这 个 刚 创建 的 结 点 代表 的 是 本 机 。 

11. 将 结 点 置 为 永久 性 ， 并 设置 以 太 网 地 址 
174-176 时 限 值 设 为 0%， 意 味 着 该 结 点 是 永久 有 效 的 一 一 永远 不 会 超时 。 从 接口 的 arpcom 
结构 中 将 硬件 地 址 拷贝 至 rt_gateway 所 指 的 sockaddr_dl 结 构 中 。 

12. 将 接口 指针 指向 环 回 接口 
177-178 若 全 局 变量 usrloopback 值 不 为 0( 默 认为 1 )， 则 将 路 由 表 结 点 内 的 接口 指针 指向 
环 回 接口 。 这 意味 着 ， 如 果 有 数据 报 发 给 目 己 ， 就 送 往 环 回 接口 。 在 4.4BSD 以 前 的 版 本 中 ， 
可 以 通过 /etc/netstart 文 件 中 的 命令 : 


route add 140.252.13.35 127.0,.0;1 
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第 一 次 有 数据 报 发 给 本 机 了 了 地 址 时 ， 我 们 刚才 看 到 的 代码 会 自动 创建 一 个 这 样 的 路 由 。 此 外 ， 
这 些 代 码 对 于 一 个 接口 只 会 执行 一 次 。 一 旦 路 由 表 结 点 和 永久 性 ARP 结 点 创 建 好 后 ， 它 们 就 
不 会 超时 ， 所 以 不 会 再 次 出 现 对 本 机 IP 地 址 的 RTM_RESOLLVE 命 令 。 

arp rtrequest 函 数 的 最 后 部 分 如 图 21-30 所 示 ， 处 理 RTM_DELETE 请 求 。 从 图 21-3 中 ， 
我 们 可 以 看 到 ， 该 命令 是 由 arp 命 令 产 生 的 ， 用 于 手工 删除 一 个 结 点 ; 或 者 在 一 个 ARP 结 所 
超时 时 由 arptfree 产 生 。 


if ether.c 
181 case RTM DELETE: 
182 1L Cle == cU) 
183 break; 
184 arp inuse--; 
185 remque (la); 
186 rt-»rt.llinfo = 0; 
187 rt-»rt flags &- "RTF LLINFO; 
188 if (1la-»1a, holg) 
189 m freem(la-»1la hold); 
190 Free((caddr t) 1a); 
191 ) 
192.1] 
if ether.c 


图 21-30 arp rtrequest pÁ: RTM _ DELETE 命令 


13. 验证 La 指针 
182-183 la 指针 应 该 是 非 空 的 ， 也 就 是 说 路 由 表 结 点 必须 指向 一 个 11info_arp 结 构 ， 盏 
则 ， 执 行 break， 国 数 返 回 。 

14. 删除 11info arp£ifj 
184-190 统计 值 变量 arp inuse 减 1，remque 从 链表 中 删除 11info arp 结构 。 
rt llinfojEfH E0, 清除 RTF_LLINFO 标 志 。 如 果 该 ARP 结 点 保持 有 mbuf( 即 该 ARP 请 求 未 
收 到 回答 )， 则 将 mbuf 释 放 。 最 后 释放 11info_arp 结 构 。 

注意 ，switch 语 句 中 没有 包含 default 情 况 ， 也 没有 考虑 RTM_GET 命 令 。 这 是 因为 
arp 程 序 产生 的 RTM _ GET 命令 全 部 由 route _output 函 数 处 理 ， 并 不 调用 rtrequest。 此 
外 ， 见 图 21-3， 在 RTM_GET 命 令 产 生 的 对 rtallocl 调 用 中 ， 指 定 第 二 个 参数 是 0， 所 以 
rtallocl 并 不 调用 rtrequest。 


21.14 ARP 和 多 播 


如 果 一 个 IP 数 据 报 要 采用 多 播 方式 发 送 ，ip_output 检 测 进 程 是 否 已 将 某 个 特定 的 接口 
赋予 插口 ( 见 图 12-40)。 如 果 已 经 赋值 ， 则 将 数据 报 发 往 该 接口 ， 否 则 ，ip_output 利 用 路 由 
表 选 择 输出 接口 ( 见 图 8-24)。 因 此 ， 对 于 具有 多 个 多 播发 送 接口 的 系统 来 说 ，IP 路 由 表 应 指定 
每 个 多 播 组 的 默认 接口 。 

在 图 18-2 中 我 们 看 到 ， 路 由 表 中 有 一 个 结 点 是 为 网 络 224.0.0.0 创 建 的 ， 该 结 点 具有 "flag" 
标志 。 所 有 以 224 开 头 的 多 播 组 都 以 该 结 点 指定 的 接口 (le0) 为 默认 接口 。 对 于 其 他 的 多 播 组 
(以 225~239 开 头 )， 可 以 分 别 创 建新 的 路 由 表 结 点 ， 也 可 以 对 某 个 指定 多 播 组 创建 一 个 路 由 表 
结 点 。 例 如 ， 可 以 为 224.0.11( 网 络 定时 协议 ) 创 建 一 个 与 224.0.0.0 不 同 的 路 由 表 结 点 。 如 末路 
由 表 中 没有 对 应 某 个 多 播 组 的 结 点 ， 同 时 进程 没有 用 IP_MULTICAST_IF 插 口 选项 指明 接口 ， 
那么 该 组 的 默认 接口 成 为 路 由 表 中 默认 路 由 的 接口 。 其 实 图 18-2 中 对 应 224.0.0.0 的 路 由 表 结 
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点 并 不 是 必要 的 ， 因 为 默认 接口 就 是 le0。 

如 采 选 定 的 接口 是 以 太 网 接口 ， 则 调用 arpresolve 将 多 播 组 地 址 映射 为 相应 的 以 太 网 
地 址 。 在 图 21-23 中 ,映射 通过 调用 宏 ETHER_MAP_IP_MULTICAST 来 完成 。 该 宏 所 做 的 就 
是 将 该 多 播 组 地 址 的 低 23 位 与 一 个 常量 逻辑 或 (图 12-6)， 映 射 不 需要 ARP 请 求 和 回答 ， 也 不 需 
要 进入 ARP 高 速 缓 存 。 每 次 需要 映射 时 ， 调 用 该 宏 。 

如 果 多 播 组 是 从 另外 一 个 结 点 复制 得 来 的 ， 那 么 多 播 组 地 址 会 出 现在 ARP 缓 存 里 ， 如 图 
21-5 所 示 。 因 为 这 些 结 点 将 RTF_LLINFO 标 志 置 位 。 它 们 不 会 有 ARP 请 求 和 回答 ， 所 以 说 不 
是 真正 的 ARP 结 点 。 它 们 也 没有 相应 的 链 路 层 地 址 ， 宏 ETHER_MAP_IP_MULTICAST 就 可 以 
完成 映射 。 

这 些 多 播 组 的 ARP 结 点 的 时 效 与 正常 的 ARP 结 点 不 同 。 在 为 某 个 多 播 组 创建 一 个 路 由 表 
结 点 时， 如 图 18-2 中 的 224.0.0.1，rtrequest 从 被 克隆 的 结 点 中 复制 rt metrics 结 构 ( 图 
19-9)。 图 21-28 中 ， 网 络 路 由 结 皮 的 rmx_expire 值 被 设 为 RTM_ADD 命 令 执行 的 时 间 ， 也 即 
系统 初始 化 的 时 间 。 为 224.0.0.1 设 置 的 结 点 也 设置 为 同样 的 时 间 。 

这 就 意味 着 在 下 次 arptimer 执 行 时 , 对 应 多 播 组 224.0.0.1 的 ARP 结 点 总 是 超时 的 。 所 以 ， 
当下 一 次 在 路 由 表 中 查找 时 就 需 重新 创建 该 结 点 。 


21.15 ”小结 


ARP 提 供 了 了 HP 地址 到 硬件 地 址 的 映射 ， 本 章 讲 述 了 如 何 实现 这 种 映射 。 

Net/3 实 现 与 以 往 的 BSD 版 本 有 很 大 不 同 。ARP 信 息 被 存放 在 多 个 结构 里 面 : 路 由 表 、 数 
据 链 路 插口 地 址 结构 和 11info_arp 结 构 。 图 21-1 显 示 了 这 些 结构 之 间 的 关系 。 

发 送 一 个 ARP 请 求 是 很 简单 的 : 正确 填充 相关 字段 后 ， 将 请 求 广播 发 送出 去 就 行 了 。 处 
理 请 求 就 要 复杂 一 些 ， 因 为 每 个 主机 都 收 到 了 广播 的 ARP 请 求 。 除 了 响应 请 求 外 ， 
in_arpinput 还 要 检测 是 否 有 其 他 主机 正 与 它 使 用 同一 个 IP 地 址 。 因 为 每 一 个 ARP 请 求 中 包 
含 发 送 方 的 IP 和 硬件 地 址 ， 所 以 网 络 上 的 所 有 主机 都 可 以 通过 它 来 更 新 自己 的 ARP 结 点 。 

在 局 域 网 中 ，ARP 洪 泛 将 是 一 个 问题 ，Net/3 是 第 一 个 考虑 这 种 问题 的 BSD 版 本 。 对 于 同 
一 个 目的 地 ， 一 秒 钟 内 只 可 发 送 一 个 ARP 请 求 ， 如 果 连 续 5 个 请 求 都 没有 收 到 回答 ， 必 须 暂停 
20 秒 钟 才 可 再 发 送 去 往 该 目的 地 的 ARP 请 求 。 


习题 


21.1 图 21-17 中 给 局 部 变量 ac 赋值 时 ， 做 过 什么 假设 ? 

21.2 如 果 我 们 先 ping 本 地 以 太 网 的 广播 地 址 ， 之 后 执行 arp -a， 就 可 以 发 现 几乎 所 有 
本 地 以 太 网 上 的 其 他 主机 的 表 项 都 填 人 到 了 ARP 高 速 缓存 中 。 这 是 为 什么 ? 

21.3 查看 代码 并 解释 为 什么 图 21-19 中 需要 把 sdl_alen 的 值 赋 为 6。 

21.4 在 Net/2 中 有 一 个 独立 于 路 由 表 而 存在 的 ARP 表 ， 每 次 调用 arpresolve 时 ， 都 要 
在 该 ARP 表 中 查找 。 试 与 Net/3 的 方法 比较 ， 哪 个 更 有 效 ? 

21.5 Net/2 中 的 ARP 代 码 显 式 地 设置 ARP 高 速 缓存 中 非 完 整 表 项 的 超时 为 3 分 钟 ， 非 完整 
表 项 是 指正 在 等 待 ARP 回 答 的 表 项 。 但 我 们 从 没有 提 过 Net/3 如 何 处 理 该 超时 ， 那 
么 Net/3 何 时 才 认 为 非 完 整 表 项 超时 ? 

21.6 当 Net/3 系 统 作 为 一 个 路 由 器 并 且 导 致 洪 泛 的 分 组 来 自 其 他 主机 时 ， 为 避免 ARP 洪 
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泛 要 做 哪些 变动 ? 

21.7 图 21-1 中 给 出 的 四 个 rmx_expire 变 量 的 值 是 什么 ”代码 在 何 处 设置 该 值 ? 

21.8 对 广播 ARP 请 求 的 每 个 主机 ， 本 章 中 引起 要 创建 一 个 ARP 结 点 的 代码 需要 做 哪些 变 
动 ? 

21.9 为 了 验证 图 21-25 中 的 例子 ， 作 者 运行 了 卷 1 附 录 C 的 sock 程 序 ， 每 隔 300 ms 向 本 地 
以 太 网 上 一 个 不 存在 的 主机 发 送 一 个 UDP 数据 报 (程序 的 -p 选 项 改 为 等 待 的 毫秒 
数 )。 但 是 在 返回 第 一 个 EHOSTDOWN 差 错 之 前 , 仅 无 差错 地 发 送 了 10 个 UDP 数 据 报 ， 
而 不 是 图 21-25 所 示 的 11 个 ， 这 是 为 什么 ? 

21.10 修改 ARP， 使 得 它 在 等 待 ARP 回 答 时 持 有 到 目的 主机 的 所 有 分 组 ， 而 不 是 持 有 最 
近 的 一 个 。 如 何 实 现 这 种 改变 ? 是否 像 每 个 接口 的 输出 队列 一 样 ， 需 要 一 个 限 
制 ? 是 否 需 要 改变 数据 结构 ? 


第 22 和 章 协议 控制 块 


22.1 引言 


协议 层 使 用 协议 控制 块 PCB) 存 放 各 UDP 和 TCP 揪 口 所 要 求 的 多 个 信息 片 。Internet 协 议 维 
护 Internet 协议 控制 块 (Internet protocol control block) 和 TCP 控 制 块 (TCP control block)。 因 为 
UDP 是 无 连接 的 ， 所 以 一 个 病 结 点 需要 的 所 有 信息 都 可 以 在 Internet PCB 中 找到 ， 不 存在 UDP 
控制 块 。 

Internet PCB 含 有 所 有 UDP 和 TCP 端 结 点 共有 的 信息 : 外 部 和 本 地 卫 了 地 址 、 外 部 和 本 地 端 

号 、IP 首 部 原型 、 该 端 结 点 使 用 的 了 了 选项 以 及 一 个 指 同 该 端 结 点 目的 地 址 选 路 表 条 目的 指针 。 
TCP 控 制 块 包含 了 TCP 为 各 连接 维护 的 所 有 结 点 信息 : 两 个 方 癌 的 序号 、 窗 口 大 小 、 重 传 次 数 
SP 

本 章 我 们 描述 NeV3 所 用 的 Internet PCB ， 在 详细 讨论 TCP 时 再 探讨 TCP 控 制 块 。 我 们 将 研 

究 几 个 操作 Internet PCB 的 国 数 ， 会 在 描述 UDP 和 TCP 时 遇 到 它们 。 大 多 数 的 图 数 以 in_pcb 
3135. 

图 22-1 总 结 了 协议 控制 块 以 及 它们 与 Eile 和 socket 结 构 之 间 的 关系 。 该 图 中 有 几 点 要 

考虑 : 
。 当 socket 或 accept 创 建 一 个 插口 后 ， 插 口 层 生 成 一 个 file 结 构 和 一 个 socket 结 构 。 
文件 类 型 是 DTYPE_SOCKET，UDP 端 结 点 的 插口 类 型 是 SOCK_DGRAM，TCP 端 结 点 的 
插口 类 型 是 SOCK STREAM, 
。 然 后 调用 协议 层 。UDP 创 建 一 个 Internet PCB( 一 个 ijnpcb 结 构 )， 并 把 它 链接 到 socket 
结构 上 : so _ pcb 成 员 指 同 ijnpcb 结 构 ，inp socket 成 员 指 向 socket 结 构 。 
。*TCP 做 同样 的 工作 ， 也 创建 它 自己 的 控制 块 (一 个 tcpcb 结 构 )， 并 用 指针 inp_ppcb 和 
t_inpcb 把 它 链接 到 inpcb 上 。 在 两 个 UDP inpcb 中 ，inp_ppcb 成 员 是 一 个 空 指针 ， 
因为 UDP 不 负责 维护 它 自己 的 控制 块 。 
。 我 们 显示 的 其 他 四 个 inpcb 结 构 的 成 员 ， 从 inp_faddr 到 inp_1port， 形 成 了 该 端 结 
点 的 揪 口 对 : 外 部 IP 地 址 和 端口 号 ， 以 及 本 地 IP 地 址 和 端口 号 。 
。UDP 和 TCP 用 指针 inp next 和 inp _ prev 维 护 一 个 所 有 Internet PCB 的 双 癌 链表 。 它 们 
在 表 头 分 配 一 个 全 局 inpcb 结 构 ( 命 名 为 db 和 tcb)， 在 该 结构 中 只 使 用 三 个 成 员 : 下 
一 个 和 前 一 个 指针 ， 以 及 本 地 闪 口 号 。 后 一 个 成 员 中 包含 了 该 协议 使 用 的 下 一 个 临时 端 
TEA 
Internet PCB 是 一 个 传输 层 数 据 结 构 。TCP、UDP 和 原始 IP 使 用 它 ， 但 IP、ICMP 或 ICMP 
不 用 它 。 

我 们 还 没有 讲 过 原始 IP， 但 它 也 用 Internet PCB 。 与 TICP 和 UDP 不 同 ， 原 始 IP 在 PCB 中 不 
用 端口 号 成 员 ， 原 始 IP 只 用 本 章 中 提 到 的 两 个 图 数 : in_pcballoc 分 配 PCB， 
in pcbdetach 释 放 PCB。 第 32 章 将 讨论 原始 IP。 
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Internet 协 议 控 制 块 和 相关 的 TCP 控 制 块 
图 22-1 Internet 协 议 控 制 块 以 及 与 其 他 结构 之 间 的 关系 


22.2 代码 介绍 
所 有 PCB 函 数 都 在 一 个 C 文 件 和 一 个 包含 定义 的 头 文 件 中 ， 如 图 22-2 所 示 。 


netinet/in pcb.h in _ pcb 结构 定义 
netinet/in pcb.c PCB EZ 


图 22-2 本 章 中 讨论 的 文件 
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22.2.1 全 局 变量 
本 章 只 引入 一 个 全 局 变量 ， 如 图 22-3 所 示 。 


图 22-3 本 章 中 引入 的 全 局 变量 






22.2.2 统计 量 


Internet PCB 和 和 TCP PCB 都 是 内 核 的 malloc 函 数 分 配 的 M PCB 类 型 。 这 只 是 内 核 分 配 的 
大 约 60 种 不 同类 型 内 存 的 一 种 。 例 如 ，mbuf 的 类 型 是 M BUF，socket 结 构 分 配 的 类 型 是 
M SOCKET, 

因为 内 核 保 持 所 分 配 的 不 同类 型 内 存 缓存 的 计数 器 ， 所 以 维护 着 几 个 PCB 数 量 的 统计 量 。 
vmstat  -m 命 令 显示 内 核 的 内 存 分 配 统计 信息 ，netstat  -m 命 令 显 示 的 是 mbuf 分 配 统 计 
HE. 


22.3 :inpcb 的 结构 


图 22-4 是 inpcb 结 构 的 定义 。 这 不 是 一 个 大 结构 ， 只 占 84 个 字 证 。 


; in_pcb.h 
42 struct inpcb { 
43 struct inpcb *inp next, *inp prev; /* doubly linked list */ 
44 struct inpcb *inp head; /* pointer back to chain of inpcb's for 
45 this protocol */ 
46 struct in_addr inp. faddr; /* foreign IP address */ 
47 u short inp fport; /* foreign port$s */ 
48 struct in addr inp laddr; /* local IP address */ 
49 u short inp lport; /* local portë *J/ 
50 struct socket *inp socket;  /* back pointer to socket */ 
51 cadar t inp ppcb; /* pointer to per-protocol PCB */ 
32 struct route inp route; /* placeholder for routing entry */ 
53 int inp flags; /* generic IP/datagram flags */ 
54 struct ip inp ip; /* header prototype; should have more */ 
55 struct mbuf *inp options; /* IP options */ 
56 struct ip moptions *inp moptions; /* IP multicast options */ 
57 } 

in_pcb.h 


图 22-4 inpcb 结 构 


43-45 inp next 和 inp prev 为 UDP 和 TCP 的 所 有 PCB 形 成 一 个 双 辐 链表 。 另 外 ， 每 个 
PCB 都 有 一 个 指向 协议 链表 表 头 的 指针 (inp_head)。 对 UDP 表 上 的 PCB ，inp_head 总 是 指 
向 udb( 图 22-1); 对 TCP 表 上 的 PCB ， 这 个 指针 总 是 指 同 上 cb。 

46-49 下 面 四 个 成 员 : inp faddr, inp fport, inp laddr&clinp lport, 包含 了 
这 个 IP 端 结 点 的 插口 对 : 外 部 卫 地 址 和 端口 号 ， 以 及 本 地 IP 地 址 和 端口 号 。 PCB 中 以 网 络 字 市 
序 而 不 是 以 主机 字 布 序 维护 这 四 个 值 。 


运输 层 的 TCP 和 UDP 都 使 用 Internet PCB 。 尽 管 在 这 个 结构 里 保存 本 地 和 外 部 IP 
地 址 很 有 意义 ,但 端口 号 并 不 属于 这 里 。 广 口号 及 其 大 小 的 定义 是 由 各 运输 层 协议 


223€. WX E LA 575 


指 足 的 ， 不 同 的 运输 层 可 以 指定 不 同 的 值 。[Partridge 1987] 提出 了 这 个 问题 ， 其 中 
版 本 1 的 RDP 采 用 8 bithe 5, 4 £€8 bit 的 山口 号 重新 实现 几 个 标准 内 核 程序 。 
版 本 2 的 RDP [PartridgefeHinden 1990] 采用 16 bit u$, RL, mu A-T i 
层 专用 控制 块 ， 例 如 TCP 的 tcpcb。 可 能 会 要 求 采 用 一 种 新 的 UDP 专用 的 PCB IE 
这 个 方案 可 行 ， 但 却 可 能 使 我 们 马上 要 讨论 的 几 个 程序 复杂 化 。 
50-51 inp_socket 是 一 个 指 问 该 PCB 的 socket 结 构 的 指针 ，inp ppcb 是 一 个 指针 ， 它 
指 问 这 个 PCB 的 可 选 运 输 层 专 用 控制 块 。 我 们 在 图 22-1 中 看 到 ，inp_ppcb 和 TCP 一 起 指向 对 
应 的 ktcpcb， 但 UDP 不 用 它 。socket 和 :inpcb 之 间 的 链接 是 双向 的 ， 因 为 有 时 内 核 从 插口 
层 开 始 ， 需 要 对 应 的 Internet PCB( 如 用 户 输出 )， 而 有 时 内 核 从 PCB 开 始 ， 需 要 找到 对 应 的 
socket 结 构 ( 如 处 理 收 到 的 IP 数 据 报 )。 
52 如 末 IP 有 一 个 到 外 部 地 址 的 路 由 ， 则 它 被 保存 在 ijpp_route 条 目 处 。 我 们 将 看 到 ， 当 收 
到 一 个 ICMP 重 定 回 报 文 时 ， 将 扫描 所 有 Internet PCB， 找 到 那些 外 部 IP 地 址 与 重 定向 IP 地 址 匹 
配 的 PCB， 将 其 inp_route 条 目标 记 成 无 效 。 当 再 次 将 该 PCB 用 于 输出 时 ， 迫 使 IP 重 新 找 一 
条 到 该 外 部 地 址 的 新 路 由 。 
53 inp_flags 成 员 中 存放 了 几 个 标志 。 图 22-5 显 示 了 各 标志 。 








inp flags 








进程 提供 整个 IP 首 部 (只 有 原始 插口 ) 
把 到 达 IP 选 项 作为 控制 信息 接收 (只 有 UDP， 还 没有 实现 ) 

把 回答 的 IP 选 项 作为 控制 信息 接收 (只 有 UDP， 还 没有 实现 ) 
把 IP 目 的 地 址 作为 控制 信息 接收 (只 有 UDP) 
INP RECVOPTS|INP-RECVRETOPTS|INP RECVDSTADDR 


INP HDRINCL 
INP RECVOPTS 

INP RECVRETOPTS 
INP RECVDSTADDR 
INP CONTROLOPTS 









图 22-5 inp flags 值 


54 PCB 中 维护 一 个 IP 首 部 的 备份 ， 但 它 只 使 用 其 中 的 两 个 成 员 ，TOS 和 TTL。TOS 被 初始 化 
为 0( 普 通 业 务 )，TTL 被 运输 层 初 始 化 。 我 们 将 看 到 ，TCP 和 UDP 都 把 TTL 的 默认 值 设 为 64。 
进程 可 以 用 IP_TOS 或 TP_TTL 插 口 选项 改变 这 些 默 认 值 ， 新 的 值 记 录 在 ijnpcb-inp_ip 结 构 
中 。 以 后 ，TCP 和 UDP 在 发 送 IP 数 据 报 时 ， 却 把 该 结构 用 作 原 型 IP 首 部 。 

55-56 进程 也 可 以 用 IP_OPTIONS 插 口 选 项 设置 外 出 数据 报 的 IP 选 项 。 函 数 ip_pcbopts 
把 调用 方 选 项 的 备份 存放 在 一 个 mbuf 中 ，inp_options 成 员 是 一 个 指向 该 mbuf 的 指针 。 每 
次 TCP 和 UDP 调用 ip_output 国 数 时 ， 就 把 一 个 指向 这 些 IP 首 部 的 指针 传 给 了 卫 ， 了 将 其 播 到 
出 去 的 IP 数 据 报 中 。 类 似 地 ，inp_moptions 成 员 是 一 个 指向 用 户 IP 多 播 选 项 备份 的 指针 。 


22.4 in pcballoc 和 in pcbdetachň ži 


在 创建 插口 时 ，TCP、UDP 和 原始 IP 会 分 配 一 个 Internet PCB。 系 统 调用 socket 发 布 
PRU_ATTACH 请 求 。 在 UDP 情 况 下 ， 我 们 将 在 图 23-33 中 看 到 ， 产 生 的 调用 是 


struct socket *so; 
int error; 


error = in pcballoc(so, &udb); 


图 22-6 是 jn pcballocHA, 
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mpm in pcb.c 
37 in pcballoc(so, head) 
38 struct socket *so; 
39 struct inpcb *heagd; 
40 ( 
41 struct inpcb *inp; 
42 MALLOC(inp, struct inpcb *, sizeof(*inp), M PCB, M WAITOK); 
43 if (inp == NULL) 
44 return (ENOBUFS); 
45 bzero((caddr t) inp, sizeof(*inp)); 
46 inp-»inp head = head; 
47 inp-»inp socket - so; 
48 insque(inp, head); 
49 So-»so pcb = (caddr t) inp; 
50 return (0); 
Sl ] 
in pcb.c 


图 22-6 in pcballoc 畏 数 : 分 配 一 个 Internet PCB 


1. 分 配 PCB ， 初 始 化 为 零 


36-45 


in_pcballoc 使 用 宏 MALLOC 调 用 内 核 的 内 存 分 配器 。 因 为 这 些 PCB 总 是 作为 系统 


调用 的 结果 分 配 的 ， 所 以 总 能 等 到 一 个 。 


Net/2 和 早期 的 伯克利 版 本 把 Internet PCB 和 TCP PCB 在 mbuf 中 。 它 们 的 大 


小 分 别 是 80 和 108 字 节 。Net/3 有 版 本 中 的 大 小 变 成 了 84 和 140 字 节 ， 所 以 TCP 控 制 块 不 


再 这 合 


合 存放 在 mbuf 中 。Net/3 使 用 内 核 的 内 存 PENA TANHRAARNA. 


细心 的 读者 会 注意 到 图 2-6 的 例子 中 ， 为 PCB 分 配 了 17 个 mbuf， 而 我 们 刚刚 讲 到 


Net/3 不 再 用 mbuf 存 放 Internet PCB 和 TCP PCB, 4e X, Net/365 5$ M mbuf Zi z& Unix3, 
这 就 是 计数 器 所 指 的 。netstat 输 出 的 mbuf 统 计 信 息 是 针对 内 核 为 所 有 协 


族 分 配 的 mbuf， 而 不 仅仅 是 Internet 协 议 族 。 
bzero 把 PCB 设 成 0。 这 非常 重要 ， 因 为 PCB 中 的 卫 地 址 和 端口 号 必须 被 初始 化 成 0。 


in pcb.c 


252 int 
253 in, pcbdetach(inp) 
254 struct inpcb *inp; 


255 ( 
256 struct socket *so - inp-»inp socket; 
257 So-»so pcb = 0; 
258 sofree(so); 
259 if (inp-»inp options) 
260 (void) m free(inp-»inp options); 
261 if (inp-»inp route.ro rt) 
262 rtfree(inp-»inp route.ro rt); 
263 ip freemoptions(inp-»inp moptions); 
264 remque (inp); 
265 FREE(inp, M PCB); 
266 ) : 
in pcb.c 
图 22-7 in pcbdetachtü Zt: 释放 一 个 Internet PCB 
2. 把 结构 链接 起 来 
46-49 in head 成 员 指 向 协议 的 PCB 表 头 (udb 或 tcp)，inp_socket 成 员 指 同 socket 结 
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KJ, WIBJPCBZi JINE X RJXI SEX FE(insque), socket tji] iZžPCB, insque f 
数 把 新 的 PCB 放 到 协议 表 的 表 头 里 。 

在 发 布 PRU_DETRACH 请 求 后 ， 释 放 一 个 Internet PCB ， 这 是 在 关闭 揪 口 时 发 生 的 。 图 22-7 
显示 了 in_pcbdaetach 畏 数 ， 了 最 后 将 调用 它 。 
252-263 socket 结构 中 的 PCB 指 针 被 设 成 0(，sofree 释 放 该 结构 。 如 果 给 这 个 PCB 分 配 
的 是 一 个 有 IP 选 项 的 mbuf， 则 由 m_free 将 其 释放 。 如 果 该 PCB 中 有 一 个 路 由 ， 则 由 rtfree 
将 其 释放 。 所 有 多 播 选 项 都 由 ip_freemoptions 释 放 。 
264-265 remque 把 该 PCB 从 协议 的 双向 链表 中 移 走 ， 访 PCB 使 用 的 内 存 被 返回 给 内 核 。 


22.5 绑 定 、 连 接 和 分 用 


在 研究 绑 定 插口 、 连 接 插口 和 分 用 进入 的 数据 报 的 内 核 国 数 之 前 ， 我 们 先 来 看 一 下 内 核 
对 这 些 动作 施加 的 限制 规则 。 

1. 绑 定 本 地 IP 地 址 和 端口 号 

图 22-8 是 进程 在 调用 bind 时 可 以 指定 的 本 地 IP 地 址 和 本 地 端口 号 的 六 种 组 合 。 

前 三 行 通 党 是 服务 如 的 一 一 它们 缘 定 某 个 特定 端口 ， 称 为 服务 絮 的 知名 闹 口 (well-known 
port)， 客 户 都 知道 这 些 端 口 的 值 。 后 三 行 通常 是 客户 的 一 一 它们 不 考虑 本 地 的 端口 ， 称 为 临 
Fin H (ephemeral port)， 只 要 它 在 客户 主机 上 是 唯一 的 。 

大 多 数 服务 器 和 客户 在 调用 bind 时 ， 都 指定 通 配 IP 地 址 。 如 图 22-8 所 示 ， 在 第 3 行 和 第 6 


行 中 ， 用 * 表 示 。 
单 播 或 广播 非 零 一 个 本 地 接口 ， 特 定 端口 
多 播 1E 一 个 本 地 多 播 组 ， 特 定 端口 
" 1E 任何 本 地 接口 或 多 播 组 ， 特 定 端口 


单 播 或 广播 一 个 本 地 接口 ， 内 核 选择 端口 
gik 一 个 多 播 组 ， 内 核 选 择 端 口 
， 任何 本 地 接口 ， 内 核 选择 端口 


图 22-8 bingd 的 本 地 IP 地 址 和 本 地 端口 号 的 组 合 


如 果 服 务 器 把 某 个 特定 卫 地 址 绑 定 到 某 个 播 口上 (也 就 是 说 ， 不 是 通 配 地 址 )， 那 么 进入 的 
IP 数 据 报 中 ， 只 有 那些 以 该 特定 IP 地 址 作为 目的 IP 地 址 的 IP 数 据 报 一 一 不 管 是 单 播 、 广 播 或 多 
播 一 一 都 被 交付 给 该 进程 。 自 然 地 ， 当 进程 把 某 个 特定 单 播 或 广播 IP 地 址 绑 定 到 某 个 插口 上 
时 ， 内 核验 证 该 IP 地 址 与 一 个 本 地 接口 对 应 。 

尽管 可 能 ， 但 很 少 出 现 客户 程序 绑 定 某 个 特定 IP 地 址 的 情况 (图 22-8 中 的 第 4 行 和 第 5 行 )。 
通常 客户 绑 定 通 配 卫 地 址 (图 22-8 中 的 最 后 一 行 )， 让 内 核 根据 自己 选择 的 到 服务 器 的 路 由 来 选 
择 外 出 的 接口 。 

图 22-8 设 有 显示 如 果 客 户 程序 试图 绑 定 一 个 已 经 被 其 他 插口 使 用 的 本 地 端口 时 会 发 生 什 
么 情况 。 默 认 情 况 下 ， 如 果 一 个 端口 已 经 被 使 用 ， 进 程 是 不 能 绑 定 它 的 。 如 果 发 生 这 种 情况 ， 
则 返回 ERDDRINUSE 差 错 ( 地 址 正在 被 使 用 )。 正 在 被 使 用 (in use) 的 定义 很 简单 ， 就 是 只 要 存 
在 一 个 PCB， 就 把 该 端口 作为 它 的 本 地 端口 。 正在 被 使 用 ”的 概念 是 相对 于 绑 定 协议 的 : 
TCP 或 UDP， 因 为 TCP 端 口号 与 UDP 端口 号 无 关 。 
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Net/3 人 允许 进程 指定 以 下 两 个 揪 口 选项 来 改变 这 个 默认 行为 : 
SO REUSEADDR 人 允许 进程 绑 定 一 个 正在 被 使 用 的 妆 口 号 ， 但 被 绑 定 的 了 了 地 址 (包括 通 配 
地 址 ) 必 须 没 有 被 绑 定 到 同一 个 问 口 。 
例如 ， 如 宁 连 到 的 接口 的 耳 地 址 是 140.252.1.29， 则 一 个 插口 可 以 被 绑 
Æ $/140.252.1.29, 5m H5555; 3—^rd& Hn 1252€ $/127.0.0.1, vm H 
5555, 还 有 一 个 搬 口 可 以 绑 定 到 通 配 IP 地 址 ， 端 口 5555。 在 第 二 种 和 
第 三 种 情况 下 调用 bina 之 前 ， 必 须 先 调用 setsockopt， 设 置 
| SO REUSEADDRJItJji, 
SO REUSEPORT 人 允许 进程 重用 IP 地 址 和 端口 号 ， 但 是 包括 第 一 个 在 内 的 各 个 IP 地 址 和 
端口 号 ， 必 须 指 定 这 个 揪 口 选项。 和 SO_REUSERADDR 一 样 ， 第 一 次 绑 
定 闹 口号 时 要 指定 插口 选项 。 
例如 ， 如 果 连 到 的 接口 具有 140.252.1.29 的 IP 地 址 ， 并 且 某 个 揪 口 绑 定 
到 140.252.1.29， 端 口 6666， 并 指定 SO_REUSEPORT 插 口 选项 ， 则 另 一 
个 插口 也 可 以 指定 同一 个 插口 选项 ， 并 绑 定 140.252.1.29， 端 口 6666。 
本 市 的 后 面 将 讨论 在 后 一 个 例子 中 ， 当 到 达 一 个 目的 地 址 是 140.252.1.29， 目 的 端口 是 
6666 的 IP 数 据 报时 ， 会 发 生 什么 情况 。 因 为 这 两 个 插口 都 被 绑 定 到 该 端 结 点 上 。 
SO REUSEPORT 是 Net/3 新 加 上 的 ， 在 4.4BSD 中 是 为 支持 多 播 而 引入 的 。 在 这 个 
版 本 之 前 ， 两 个 插口 是 不 可 能 绑 定 到 同一 个 IP 地 址 和 同一 个 端口 号 的 。 
不 幸 的 是 ，SO_REUSEPORT 不 是 原来 的 标准 多 播 源 程序 的 内 容 ， 所 以 对 它 的 支 
持 并 不 广泛 。 其 他 支持 多 播 的 系统 ， 如 Solaris 2.x， 让 进程 指定 SO REUSEADDR 来 表 
明 允 许 把 多 个 端口 绑 定 到 同一 IP 地 址 和 相同 的 端口 号 。 
2. 连接 一 个 UDP 插 口 
我 们 通常 把 connect 系 统 调用 和 TCP 客 户 联 系 起 来 ,但 是 UDP 客 户 或 UDP 服 务 器 也 可 能 
调用 connect， 为 插口 指定 外 部 IP 地 址 和 外 部 问 口 号 。 这 就 限制 插口 必须 只 与 某 个 特定 对 方 
交换 UDP 数据 报 。 
当 连 接 UDP 揪 口 时 ， 会 有 一 个 副作用 : 本 地 IP 地 址 ， 如 果 在 调用 bind 时 没有 指定 ， 会 自 
动 被 connect 设 置 。 它 被 设 成 由 IP 选 路 指定 对 方 所 选择 的 本 地 接口 地 址 。 
图 22-9 显 示 了 UDP 插口 的 三 种 不 同 的 状态 ， 以 及 国 数 为 终止 各 状态 调用 的 伪 代 码 。 


localIP.lport foreignIP.fport 















限制 到 一 个 对 方 : 
socket (), bind(*.lport) , connect (foreignIP, fport) 
socket (), bind (locallP lport), connect (foreignIP, fport) 


localIP.lport 限制 在 本 地 接口 上 到 达 的 数据 报 : locallP 


| socket (), bind(locallP, lport) 
* lport 接收 所 有 发 到 iport 的 数据 报 : 
socket () , bind(*, lport) 

前 三 个 状态 叫 作 已 连接 的 UDP 插口 (connected UDP socket)， 后 两 个 叫 作 未 连接 的 UDP 插 


图 22-9 UDP 插口 的 本 地 和 外 部 了 地 址 和 端口 号 规范 
口 (unconnected UDP socket)。 两 个 没有 连接 上 的 UDP 插 口 的 区 别 在 于 ， 第 一 个 具有 一 个 完全 





$223 Wide 579 


指定 的 本 地 地 址 ， 而 第 二 个 具有 一 个 通 配 本 地 IP 地 址 。 

3. 分 用 TCP 接 收 的 卫 数 据 报 . 

图 22-10 显 示 了 主机 sun 上 的 三 个 Telnet 服 务 器 的 状态 。 前 两 个 插口 处 于 LISTEN 状 态 ， 等 
待 进入 的 连接 请 求 ， 加 三 个 连接 到 IP 地 址 是 140 252 111 的 主机 上 的 端口 1300。 第 一 个 监听 插 
口 处 理 在 接口 140.252.129 上 到 达 的 连接 请 求 ， 第 二 个 监听 插口 将 处 理 所 有 其 他 接口 (因为 它 的 
本 地 IP 地 址 是 通 配 地 址 )。 


140.252.1.29 23 * * LISTEN 
* 23 * * LISTEN 
140.252.1.29 23 140.252.1.11 1500 ESTABLISHED 


图 22-10 本 地 端口 是 23 的 三 个 TCP 插 口 


两 个 具有 未 指定 的 外 部 IP 地 址 和 端口 号 的 监听 插口 都 显示 了 出 来 ， 因 为 插口 API 不 允许 
TCP 服 务 器 限制 任何 一 个 值 。TCP 服 务 器 必须 accept 客 户 的 连接 ， 并 在 连接 建立 完成 之 后 
(也 就 是 说 ， 当 TCP 的 三 次 握手 结束 之 后 ) 被 告知 客户 的 IP 地 址 和 端口 号 。 只 有 到 这 个 时 候 ， 如 
果 服 务 器 不 喜欢 客户 的 IP 地 址 和 端口 号 ， 才 能 关闭 连接 。 这 并 不 是 对 TCP 要 求 的 特性 ， 这 只 
是 插口 API 通 常 的 工作 方式 。 

当 TCP 收 到 一 个 目的 端口 是 23 的 报 文 段 时 ， 它 调用 in_pcblookup， 搜 索 它 的 整个 
Internet PCB 表 ， 找 到 一 个 匹配 。 马 上 我 们 会 研究 这 个 函数 ， 将 看 到 它 有 优先 权 ， 因 为 它 的 通 
配 匹 配 (wildcard match) 数 最 少 。 为 了 确定 通 配 匹 配 数 ， 我 们 只 考虑 本 地 和 外 部 的 IP 地 址 ， 不 
考虑 外 部 端口 号 。 本 地 端口 号 必须 匹配 ， 否 则 我 们 其 至 不 考虑 PCB。 通 配 匹 配 数 可 以 是 0、 
1( 本 地 IP 地 址 或 外 部 IP 地 址 ) 或 2( 本 地 和 外 部 IP 地 址 )。 

例如 ， 假 定 到 达 报 文 段 来 自 140.252.1.11， 端口 1500， 目 的 地 是 140.252.1.29， 端 口 23。 
图 22-11 是 图 22-10 中 三 个 插口 的 通 配 匹 配 数 。 


CC 一 一 


140.252.1.29 LISTEN 
LISTEN 2 
140.252.1.29 140.252.1.11 1500 ESTABLISHED 0 


图 22-11 从 {140.252.1.11, 1500) $1 (140.252.1.29, 23) B9 Sl TR OC EX 


第 一 个 插口 匹配 这 四 个 值 ， 但 有 一 个 通 配 匹 配 (外 部 IP 地 址 )。 第 二 个 插口 也 和 到 达 报 文 段 
匹配 ， 但 有 两 个 通 配 匹配 (本 地 和 外 部 IP 地 址 )。 第 三 个 插口 是 一 个 没有 通 配 匹 配 的 完全 匹配 。 
Net/3 使 用 第 三 个 插口 ， 它 具有 最 小 通 配 匹 配 数 。 

继续 这 个 例子 ， 假 定 到 达 报 文 段 来 自 140.252.1.11， 端 口 1501， 目 的 地 是 140.252.1.29， 
端口 23。 图 22-12 显 示 了 通 配 匹配 数 。 


















S err 


140.252.1.29 LISTEN 
* LISTEN 2 
140.252.1.29 140.252.1.11 1500 ESTABLISHED 


图 22-12 从 {140.252.1.11, 1501] $1 (140.252.1.29, 23) IJ SI ROC E 
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第 一 个 插口 匹配 有 一 个 通 配 匹配 ， 第 二 个 插口 匹配 有 两 个 通 配 匹 瑟 ， 第 三 个 插口 根本 不 
匹配 ， 因 为 外 部 端口 号 不 相等 (只 有 当 PCB 中 的 外 部 IP 地 址 不 是 通 配 地 址 时 ， 才 比较 外 部 端口 
号 )。 所 以 选择 第 一 个 插口 。 

在 这 两 个 例子 中 ， 我 们 没有 提 到 到 达 TCP 报 文 段 的 类 型 : 假定 图 22-11 中 的 报 文 段 包 含 数 
据 或 对 一 个 已 经 建立 的 连接 的 确认 ， 因 为 它 是 发 送 到 一 个 已 经 建立 的 插口 上 的 。 我 们 还 假定 ， 
图 22-12 中 的 报 文 段 是 一 个 到 达 的 连接 请 求 (一 个 SYN)， 因 为 它 是 发 送 给 一 个 正在 监听 的 插口 
的 。 但 是 in_pcblookup 的 分 用 代码 并 不 关心 这 些 。 如 果 TCP 报 文 段 对 交付 的 插口 来 说 是 错 
误 的 类 型 ， 我 们 将 在 后 面 看 到 ，TCP 会 处 理 这 种 情况 。 现 在 ， 重 要 的 是 ,分 用 代码 只 把 IP 数 
据 报 中 的 源 和 目的 插口 对 的 值 与 PCB 中 的 值 进 行 比 较 。 

4. 分 用 UDP 接 收 的 IP 数 据 报 

UDP 数据 报 的 交付 比 我 们 刚才 研究 的 TCP 的 例子 要 复杂 得 多 ， 因 为 可 以 把 UDP 数据 报 发 
送 到 一 个 广播 或 多 播 地 址 。 因 为 NeUV3( 以 及 大 多 数 支持 多 播 的 系统 ) 允 许多 个 播 口 有 相同 的 本 
地 卫 地 址 和 端口 ， 所 以 如 何 处 理 多 个 接收 方 的 情况 呢 ? NeV3 的 规则 是 : 

1) 把 目的 地 是 广播 IP 地 址 或 多 播 IP 地 址 的 到 达 UDP 数 据 报 交 付 给 所 有 匹配 的 插口 。 这 里 
没有 “最 好 的 ”匹配 的 概念 (也 就 是 具有 最 小 通 配 匹 配 数 的 匹配 )。 

2) 把 目的 地 是 单 播 IP 地 址 的 到 达 UDP 数 据 报 只 交付 给 一 个 匹配 的 插口 ， 就 是 具有 最 小 通 
配 匹 配 数 的 插口 。 如 果 有 多 个 插口 具有 相同 的 “最 小 ” 通 配 匹 配 数 ， 那 么 具体 由 哪个 插口 来 
接收 到 达 数 据 报 依赖 于 不 同 的 实现 。 

图 22-13 显 示 了 四 个 我 们 将 在 后 面 例 子 中 使 用 的 UDP 插 口 。 要 使 四 个 UDP 插 口 具 有 相同 的 
本 地 端口 号 需要 使 用 SO_REUSEADDR 或 SO_REUSEPORT。 前 两 个 插口 已 经 被 连接 到 一 个 外 部 
IP 地 址 和 端口 号 ， 后 面 两 个 没有 任何 连接 。 


140.252.1.29 577 140.252.1.11 1500 已 连接 ， 本 地 IP = 单 播 
140.252.13.63 140.252.13.35 已 连接 ， 本 地 IP = 广播 
140.252.13.63 * 未 连接 ， 本 地 IP = 广播 
* 未 连接 ， 本 地 IP = 通 配 地 址 


























* 





图 22-13 四 个 本 地 端口 为 577 的 UDP 插 口 


考虑 目的 地 是 140.252.13.63( 位 于 子 网 140.252.13 上 的 广播 地 址 )， 端 口 577， XE BI 
140.252.13.34， 端 口 1500。 图 22-14 显 示 它 被 交付 给 第 三 和 第 四 个 插口 。 


140.252.1.29 140.252.1.11 不 ， 本 地 和 外 部 IP 不 匹配 


140.252.13.63 140.252.13.35 不 ， 外 部 IP 不 匹配 
140.252.13.63 交付 


交付 





图 22-14 接收 从 {140.252.13.34, 1500} 到 {140.252.13.63, 577} 的 数据 报 
广播 数据 报 不 交付 给 第 一 个 插口 ， 因 为 本 地 IP 地 址 和 目的 PP 地址 不 匹配 ， 外 部 IP 地 址 和 源 


IP 地 址 也 不 匹配 。 也 不 把 它 交 付 给 弟 二 个 插口 ， 因 为 外 部 IP 地 址 和 源 IP 地 址 不 匹配 。 
对 于 下 一 个 例子 , 考虑 目的 地 是 140.252.129( 一 个 单 播 地 址 ), 端口 577, 来 自 140 252 1.111， 
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| 140252129 140.252.1.11 ”交付 ，0 个 通 配 匹 配 0 个 通 配 匹 配 
140.252.13.63 140.252.13.35 不 ， 本 地 和 外 部 IP 不 匹配 
140.252.13.63 不 ， 本 地 IP 不 匹配 


不 ，2 个 通 配 匹 配 



























图 22-15 接收 从 {140.252.1.11, 1500] 3/(140.252.1.29, 577} 的 数据 报 


该 数据 报 和 弟 一 个 插口 匹配 ， 且 没有 通 配 匹 配 ， 也 和 第 四 个 插口 匹配 ， 但 有 两 个 通 配 匹 
配 。 所 以 ， 它 被 交付 给 第 一 个 插口 ， 最 好 的 匹配 。 


22.6 in pcblookup ZI 


in pcblookuptR ZUR JLH: 

1) 当 TCP 或 UDP 收 到 一 个 IP 数 据 报 上 时，in pcblookup 扫 描 协 议 的 Internet PCB 表 ， 寻 找 
一 个 匹配 的 PCB ， 来 接收 该 数据 报 。 这 是 运输 层 对 收 到 数据 报 的 分 用 。 

2) 当 进 程 执 行 bind 系 统 调用 ， 为 某 个 插口 分 配 一 个 本 地 IP 地 址 和 本 地 端口 号 时 ， 协 议 调 
用 in_pcbbind， 验 证 请 求 的 本 地 地 址 对 疫 有 被 使 用 。 

3) 当 进 程 执行 bind 系 统 调用 ， 请 求 给 它 的 插口 分 配 一 个 临时 端口 时 ， 内 核 选 了 一 个 临时 
问 口 ， 并 调用 in_pcbbind 检 查 该 端口 是 否 正 在 被 使 用 。 如 果 正 在 被 使 用 ， 就 试 下 一 
写 ， 以 此 类 推 ， 直 到 找到 一 个 没有 被 使 用 的 端口 号 。 

4) 当 进 程 显 式 或 隐 式 地 执行 connect 系 统 调用 时 ，in_pcbbind 验 证 请 求 的 插口 对 是 唯 
一 的 ( 当 在 一 个 没有 连接 上 的 插口 上 发 送 一 个 UDP 数 据 报时 ， 会 隐 式 地 调用 connect， 我 们 将 
在 第 23 章 看 到 这 种 情况 )。 

在 第 2 种 、 第 3 种 和 第 4 种 情况 下 ，in_pcbbind 调 用 in_pcblookup。 两 个 选项 使 该 函 
数 的 逻辑 显得 有 些 混乱 。 首 先 ， 进 程 可 以 指定 SO_REUSEADDR 或 SO_REUSEPORT 插 口 选项 ， 
表明 允许 复制 本 地 地 址 。 

其 次 ， 有 时 通 配 匹 配 也 是 允许 的 (例如 ， 一 个 到 达 UDP 数 据 报 可 以 和 一 个 自己 的 本 地 IP 地 
址 有 通配符 的 PCB 匹 瑟 ， 意 味 着 该 插口 将 接收 在 任何 本 地 接口 上 到 达 的 UDP 数 据 报 )， 而 其 他 
情况 下 ， 一 个 通 配 匹 配 是 禁止 的 (例如 ， 当 连接 到 一 个 外 部 IP 地 址 和 端口 号 时 )。 


在 原始 的 标准 IP 多 播 代码 中 ， 出 现 了 这 样 的 注 秋 “in _ pcblookup 的 逻辑 比较 
模糊 ， 也 没有 一 点 说 明 ……: “”“。 形 容 词 模糊 比较 保守 。 

公开 的 IP 多 播 码 是 BSD /386 的 ， 是 由 Craig Leres 从 4.4BSD 派 生 而 来 的 。 他 修改 
了 该 函数 过 载 的 语义 ， 只 对 上 面 的 第 1 种 情况 使 用 in_pcb1lookup。 第 2 种 和 第 4 种 
情况 由 一 个 新 函数 in_ pcbconf1lict 处 理 。 情 况 3 由 新 函数 in_ uniqueport 处 理 。 
把 原来 的 功能 分 成 几 个 独立 的 函数 就 显得 更 清楚 了 ， 但 在 我 们 描述 的 Net/3 版 本 中 ， 
整个 逻辑 还 是 结合 在 一 个 函数 in_pPcblookup 中 。 


图 22-16 显 示 了 in pcblookuup 国 数 。 


该 国 数 从 协议 的 PCB 表 的 表 头 开始 ， 并 可 能 会 遍历 表 中 的 每 个 PCB 。 变 量 match 记 录 了 
指 癌 到 目前 为 止 最 佳 匹配 条 目的 指针 ，matchwild 记 录 在 该 匹配 中 的 通 配 匹 配 数 。 后 者 被 初 
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始 化 成 3 ， 比 可 能 遇 到 的 最 大 通 配 匹 配 数 还 大 (任何 大 于 2 的 值 都 可 以 )。 每 次 循环 时 ， 
wildcard 从 0 开始 ， 计 数 每 个 PCB 的 通 配 匹配 数 。 


1. 比较 本 地 端口 号 
第 一 个 比较 的 是 本 地 端口 号 。 如 果 PCB 的 本 地 端口 和 1Port 参 数 不 匹配 ， 则 忽略 该 PCB 。 
in pcb.c 
405 struct inpcb * 
406 in pcblookup(head, faddr, fport arg, laddr, lport arg, flags) 
407 struct inpcb *head; 
408 struct in addr faddr, laddr; 
409 u int fport arg, lport arg; 
410 int flags; 
411 ( 
412 struct inpcob *inp, *maátch = 0; 
413 int matchwild - 3, wildcard; 
414 ü short fport = fport arg, lport = lport.arg; 
415 for (inp - head-»inp next; inp !- head; inp - inp-»inp next) ( 
416 if (inp-»inp lport !- lport) 
217 continue; /* ignore if local ports are unequal */ 
418 wildcard - 0; 
419 if (inp-»inp laddr.s addr !- INADDR ANY) ( 
420 if (laddr.s addr == INADDR ANY) 
421 wildcard--; 
422 else if (inp-»inp laddr.s addr !- laddr.s addr) 
423 continue; 
424 ) else ( 
425 if (laddr.s addr !- INADDR, ANY) 
426 wildcard--; 
427 ) 
428 if (inp-»inp faddr.s addr !- INADDR ANY) ( 
429 if (faddr.s  addr == INADDR ANY) 
430 wildcard-«-; 
431 else if (inp-»inp faddr.s addr !- faddr.s addr || 
432 inp-»inp fport !- fport) 
433 continue; 
434 ) else ( 
435 if (faddr.s addr !- INADDR ANY) 
436 wildcard-4-«; 
437 ) 
438 if (wildcard && (flags & INPLOOKUP WILDCARD) == 0) 
439 continue; /* wildcard match not allowed */ 
440 if (wildcard < matchwild) ( 
441 match - inp; 
442 matchwild - wildcard; 
443 if (matchwild -- 0) 
444 break; /* exact match, all done */ 
445 ) 
446 ) 
447 return (match); 
448 ) í 
in pcb.c 


图 22-16 in pcblookuuptAZ&k: 搜索 所 有 PCB 寻 找 匹 配 
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2. 比较 本 地 地 址 
419—427 in _pcblookup 比 较 PCB 内 的 本 地 地 址 和 1laddr 参 数 。 如 果 有 一 个 是 通 配 地 址 ， 
另 一 个 不 是 ， 则 wildcard 计 数 器 加 1。 如 果 都 不 是 通 配 地 址 ， 则 它们 必须 一 样 ， 否 则 忽略 这 
个 PCB 。 如 果 都 是 通 配 地 址 ， 则 什么 也 不 改变 : 它们 不 可 比 ， 也 不 增加 wildcard 计 数 颖 。 
图 22-17 对 四 种 不 同 的 情况 做 了 小 结 。 


wildcard-4-« 


比较 耳 地 址 ， 如 果 不 相 等 ， 则 略 过 PCB 
不 能 比较 


wildcard++ 





图 22-17 in pcblookup 做 的 四 种 IP 地 址 比较 


3. 比较 外 部 地 址 和 外 部 端口 号 
428—437 这 几 行 完成 与 我 们 刚才 讲 的 同样 的 检查 , 但 是 用 外 部 地 址 而 不 是 本 地 地 址 。 而 且 ， 
如 果 两 个 外 部 地 址 都 不 是 通 配 地 址 ， 则 不 仅 两 个 IP 地 址 必须 相等 ， 而 且 两 个 外 部 端口 也 必须 
相等 。 图 22-18 对 外 部 IP 地 址 的 比较 做 了 总 结 。 


不 是 * 


wildcard++ 


比较 了 下 地 址 和 端口 ， 如 果 不 相 等 ， 则 略 过 PCB 
不 能 比较 


wildcard++ 





图 22-18 in pcblookup 做 的 四 种 外 部 IP 地 址 比较 


可 以 对 图 22-18 中 的 第 二 行进 行 另 外 的 外 部 端口 号 比较 ， 因 为 一 个 PCB 不 可 能 具有 非 通 配 
外 部 地 址 ， 且 外 部 端口 号 为 0。 这 个 限制 是 由 connect 加 上 的 ， 我们 马上 就 会 看 到 ,该 函数 
要 求 一 个 非 通 配 外 部 IP 地 址 和 一 个 非 零 外 部 问 口 。 但 是 ， 也 可 能 ， 并 且 通 党 都 是 具有 一 个 通 
配 本 地 地 址 和 一 个 非 零 本 地 端口 。 我 们 在 图 22-10 和 图 22-13 看 到 过 这 种 情况 。 

4. 检查 是 否 允 许 通 配 匹配 
438—439 参数 flags 可 以 被 设 成 INPLOOKUP WILDCARD， 意 味 着 允许 匹配 中 包含 通 配 匹 
配 。 如 果 在 匹配 中 有 通 配 匹 配 (wildcard 非 零 )， 并 且 调 用 方 没 有 指定 这 个 标志 位 ， 则 忽略 这 
个 PCB。 当 TCP 和 和 UDP 调用 这 个 尔 数 分 用 一 个 到 达 数 据 报 时 ， 总 是 把 INPLOOKUP WILDCARD 
置 位 ， 因 为 允许 通 配 匹 配 ( 记 住 图 22-10 和 图 22-13 所 给 出 的 例子 )。 但 是 ， 当 这 个 函数 作为 
connect 系 统 调用 的 一 部 分 而 调用 上 时， 为 了 验证 一 个 插口 对 没有 被 使 用 ， 把 flags 参 数 设 成 0。 

5. 记录 最 佳 匹 配 ， 如 果 找 到 确切 匹配 ， 则 返回 
440-447 这些 语 句 记 录 到 目前 为 止 找到 的 最 佳 匹 配 。 重 复 一 下 ， 最 佳 匹 配 是 具有 最 小 通 配 
匹配 数 的 匹配 。 如 果 一 个 匹配 有 一 个 或 两 个 通 配 匹 配 ， 则 记录 该 匹配 ， 循 环 继续 。 但 是 ， 如 
果 找 到 一 个 确切 的 匹配 (wildcardq 是 0)， 则 循环 终止 ， 返 回 一 个 指向 该 确切 匹配 PCB 的 指针 。 

例子 : 分 用 收 到 的 TCP 报 文 段 

图 22-19 取 自我 们 在 图 22-11 中 的 TCP 的 例子 。 假 定 in_pcblookup 正 在 分 用 一 个 从 
140.252.1.11 即 问 口 1500 到 140.252.1.29 即 闹 口 23 的 数据 报 。 还 假定 PCB 的 顺序 是 图 中 行 的 顺序 。 
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1addqz 是 目的 卫 地 址 ，1port 是 目的 TCP 端 口 ，fadqdaz 是 源 IP 地 址 ，fport 是 源 TCP 端 口 。 


PCB 值 


140.252.1.29 23 * * ] 
* 23 * * 2 
140.252.1.29 23 140.252.1.11 1500 0 


[22-19 1laddr-z140.252.1.29, lport-23, faddr = 140.252.1.11, fport- 1500 


当 把 第 一 行 和 到 达 报 文 段 比较 时 ，wildcazrd 是 1( 外 部 IP 地 址 )，flags 被 设 成 
INPLOOKUP WILDCRRD， 所 以 把 match 设 成 指向 该 PCB ，matchwi1lad 设 为 1。 因 为 还 没有 
找到 确切 的 匹配 ， 所 以 循环 继续 。 下 一 次 人 循环 中 ，wildcard 是 2( 本 地 和 外 部 IP 地 址 )， 因 为 
比 matchwi1ld 大 ， 所 以 不 记录 该 条 目 ， 循 环 继续 。 再 次 循环 时 ，wildacard 是 0， 比 
matchwild(1) 小 ， 所 以 把 这 个 条 目 记 录 在 match 中 。 因 为 已 经 找到 了 一 个 确切 的 地 址 ， 所 
以 终止 循环 ， 把 指向 该 PCB 的 指针 返回 给 调用 方 。 

如 村 TCP 和 UDP 只 用 in_pcb1lookup 来 分 用 到 达 数 据 报 ， 就 可 以 对 它 进 行 简化 。 首 先 ， 
设 有 必要 检查 faddr 或 1addr 是 人 否 是 通 配 地 址 ， 因 为 它们 是 收 到 数据 报 的 源 和 目的 IP 地 址 。 
参数 flags 以 及 与 相应 的 检测 也 可 以 不 要 ， 因 为 允许 通 配 匹配 。 

这 一 下 讨论 了 in_pcblookup 力 数 的 机 制 。 我 们 在 讨论 in_pcbbina 和 
in_pcbconnect 如 何 调用 这 个 图 数 后 ， 将 继续 回来 讨论 它 的 意义 。 


22.7 in pcbbindňžý 





下 一 个 国 数 in_pcbbinda， 把 一 个 本 地 地 址 和 端口 号 绑 定 到 一 个 播 口 上 。 从 五 个 国 数 中 
调用 它 : 

1) bind 为 某 个 TCP 揪 口 调 用 ( 通 第 绑 定 到 服务 器 的 一 个 知名 端口 上 )， 

2) bind 为 某 个 UDP 插口 调用 ( 绑 定 到 服务 器 的 一 个 知名 端口 上 ， 或 者 绑 定 到 客户 插口 的 
一 个 临时 端口 上 ); 

3) connect 为 某 个 TCP 插 口 调用 ， 如 果 该 插口 还 没有 绑 定 到 一 个 非 零 端口 上 (对 TCP 客 户 
来 说 ， 这 是 一 种 典型 情况 )， 

4) 1isten 为 某 个 TCP 插口 调用 ， 如 果 该 插口 还 没有 绑 定 到 一 个 非 零 端口 (这 很 少见 ， 因 
为 是 TCP 服务 器 调用 1isten，TCP 服 务 右 通 稼 绑 定 到 一 个 知名 端口 上 ， 而 不 是 临时 端口 ); 

5) 从 in_pcbconnect(22.8 市 ) 调 用 ， 如 果 本 地 IP 地 址 和 本 地 端口 号 被 置 位 ( 当 为 一 个 
UDP 插 口 调用 connect， 或 为 一 个 未 连接 UDP 插 口 调用 sendto 时 ， 这 种 情况 比较 典型 )。 

在 第 3 种 、 第 4 种 和 第 5 种 情形 下 ， 把 一 个 临时 端口 号 绑 定 到 该 插口 上 ， 不 改变 本 地 IP 地 址 
(在 它 已 经 被 置 位 的 情况 下 )。 

称 情 形 1 和 情形 2 为 显 式 绑 定 (explicit bind)， 情 形 3、4 和 5 为 隐 式 绑 定 (implicit bind)。 我 们 
也 注意 到 ， 尽 管 在 情形 2 时 ， 服 务 器 绑 定 到 一 个 知名 交口 是 很 正常 的 ， 但 那些 用 远程 过 程 调用 
(RPC) 启 动 的 服务 器 也 常常 绑 定 到 临时 端口 上 ， 然 后 用 其 他 程序 注册 它们 的 临时 端口 ， 该 程序 
维护 在 该 服务 器 的 RPC 程 序号 与 其 临时 端口 之 间 的 映射 (例如 ， 卷 1 的 29.4 节 描述 的 Sun 端 口 映 
射 器 )。 
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我 们 分 三 部 分 显示 in_pcbbind 国 数 。 图 22-20 是 第 一 部 分 。 


Up e in pcb.c 
53 in pcbbind(inp, nam) 
54 struct inpcb *inp; 
55 struct mbuf *nam; 
56 ( 
57 struct socket *so - inp-»inp socket; 
58 struct inpcb *head - inp-»inp head; 
59 struct sockaddr in *sin; 
60 struct proc *p s curprac; /J KEX */ 
61 u short lport = 0; 
62 int wild - 0, reuseport - (so-»so options & SO REUSEPORT); 
63 int error; 
64 If (in Xlfaddr == 0) 
65 "return (EADDRNOTAVAIL); 
66 if (inp-»inp lport || inp-»inp laddr.s addr !- INADDR, ANY) 
67 return (EINVAL); 
68 if ((so-»so options & (SO REUSEADDR | SO REUSEPORT)) == 0 && 
69 ((so-»so proto-»pr flags & PR CONNREQUIRED) == 0 || 
70 (SO-»sO Options & SO ACCEPTCONN) == 0)) 
TA wild = INPLOOKUP_WILDCARD; 
in pcb.c 


图 22-20 in pcbbindrR Zi: 4E Æ% H Hehi Fm Hs 


64-67 前 两 个 测试 验证 至 少 有 一 个 接口 已 经 被 分 配 了 一 个 IP 地 址 ， 且 该 插口 还 设 有 绑 定 。 
不 能 两 次 绑 定 一 个 插口 。 

68-71 这 个 if 语 句 有 点 令 人 疑问 。 总 的 结果 是 如 果 SO REUSEADDR 和 SO REUSEPORT 都 没 
有 和 置 位 ， 就 把 wild 设 置 成 INPLOOKUP_WILDCARD，。 

对 UDP 来 说 ， 第 二 个 测试 为 真 ， 因 为 PR_CONNREQUIRED 对 无 连接 插口 为 假 ， 对 面向 连 
接 的 插口 为 真 。 

第 三 个 测试 就 是 疑问 所 在 [Torek 1992]。 插 口 标志 SO_ACCEPTCONN 只 被 系统 调用 
1isten 置 位 (15.9 节 )， 该 值 只 对 面向 连接 的 服务 器 有 效 。 在 正常 情况 下 ， 一 个 TCP 服 务 妖 调 
用 socket、bind， 然 后 调用 Listen。 因 而 ， 当 in_ pcbbind 被 bind 调 用 时 ， 就 清除 了 这 
个 插口 标志 位 。 即 使 进程 调用 完 socket 后 就 调用 1isten， 而 不 调用 bind，TCP 的 
PRU LISTEN 请 求 还 是 调用 in pcbbind, 在 插口 层 设 置 SO_ACCEPTCONN 标 志 位 之 前 ， 给 
插口 分 配 一 个 临时 端口 。 这 意味 着 if 语 句 中 的 第 三 个 测试 ， 测 试 SO_ACCEPTCONN 是 否 没 有 
置 位 ， 总 是 为 真 。 因 此 if 语 句 等 价 于 


if ((so-»so options & (SO REUSEADDR|SO REUSEPORT)) == 0 && 
((so-»so proto-»pr flags & PR CONNREQUIRED) ==0 | |1) 
wild - INPLOOKUP WILDCARD; 


因为 任何 与 1 做 逻辑 或 运算 的 结果 都 为 真 ， 所 以 这 等 价 于 
if ((so-»so options & (SO REUSEADDR|SO REUSEPORT)) == 0 ) 
wild - INPLOOKUP WILDCARD; 


这 样 简 单 且 容易 理解 : 如 果 任 何 一 个 REUSE 插 口 选项 被 置 位 ，wi1ld 就 是 0。 如 采 没 有 
REUSE 选 项 被 置 位 ， 则 把 wilda 设 成 INPLOOKUP WILDCARD, 换言之 ， 当 函数 在 后 面 调用 
in_pcblookup 时 ， 只 有 在 没有 REUSE 选 项 处 于 开 状态 时 ， 才 允许 通 配 匹 配 。 
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in_pcbbinda 的 第 二 部 分 显示 在 图 22-22 中 ， 国 数 处 理 可 选 nam 参 数 。 
72-75 只 有 当 进程 显 式 调用 bind 时 ，nam 参 数 才 是 一 个 非 零 指 针 。 对 一 个 隐 式 的 绑 定 
(connect, listenin pcbconnect 的 副作用 ， 本 节 开 始 的 情形 3、4 和 5)，nam 是 一 个 
空 指针 。 当 指定 了 该 参数 时 ， 它 是 一 个 含有 sockaddr_in 结 构 的 mbuf。 图 22-21 显 示 了 非 空 
参数 nam 的 四 种 情形 。 


localIP 临时 端口 localIP 必 须 是 本 地 接口 


localIP lport 交付 给 in_pcblookup 
临时 端口 
lport 交付 给 in pcblookup 





图 22-21 in pcbbind 的 nam 参 数 的 四 种 情形 


76-83 对 正确 的 地 址 族 的 测试 被 注释 掉 了 ， 但 在 国 数 in_pcbconnect( 图 22-25) 中 执行 了 
等 价 的 测试 。 我 们 希望 两 者 或 者 都 有 或 者 都 没有 。 
85-94 Net3 测 试 被 绑 定 的 卫 地 址 是 否 征 一 个 多 播 组 。 如 果 是 ， 则 So_REUSERADDR 选 项 被 认 
为 与 SO_REUSEPORT 等 价 。 
95-99 否则， 如果 调用 方 绑 定 的 本 地 地 址 不 是 通 配 地 址 ， 则 ifa_ifwithaddqr 验 证 该 地 址 
与 一 个 本 地 接口 对 应 。 
注释 “yech” 可 能 是 因为 插口 地 址 结构 中 的 端口 号 必须 是 0， 因 为 ifa 
ifwithaddqr 对 整个 结构 做 二 进 制 比较 ， 而 不 仅仅 比较 IP 地 址 。 
这 是 进程 在 调用 系统 调用 之 前 必须 把 插口 地 址 结构 全 部 置 零 的 几 种 情况 之 一 。 
如 果 调 用 bind， 并 且 揪 口 地 址 结构 (sin zero[8])$99& & 8^ dB 3E, XJ 
ifa ifwithaddr 将 找 不 到 请 求 的 接口 ，in pcbbind 会 返回 一 个 错误 。 


100-105 当 调 用 方 绑 定 了 一 个 非 零 端口 时 ， 也 就 是 说 ， 进 程 要 绑 定 一 个 特殊 端口 号 ( 图 22- 
21 中 的 第 2 种 和 第 4 种 情形 )， 就 执行 下 一 个 ifE 语 句 。 如 果 请 求 的 端口 小 于 
1024(IPPORT_RESERVED)， 则 进程 必须 具有 超级 用 户 的 优先 权限 。 这 不 是 Internet 协 议 的 一 
部 分 ， 而 是 伯 殉 利 的 习惯 。 使 用 小 于 1024 的 端口 号 ， 我 们 称 之 为 保留 病 口 (reserved port), fij 
如 ，zcmd 畏 数 [Stevens 1990] 使 用 的 端口 ，rlogin 和 rsh 客 户 程 序 又 调用 该 函数 ， 作 为 服务 
器 对 它们 身份 认证 的 一 部 分 。 

106-109 然后 调用 隶 数 ijn_pcblookup( 图 22-16)， 检 测 是 否 已 经 存在 一 个 具有 相同 本 地 IP 
地 址 和 本 地 端口 号 的 PCB。 第 二 个 参数 是 通 配 IP 地 址 (外 部 IP 地 址 )， 第 三 个 参数 是 一 个 为 0 的 
端口 号 (外 部 端口 号 )。 第 二 个 参数 的 通 配 值 导致 in_pcblookup 忽 略 该 PCB 的 外 部 IP 地 址 和 
外 部 问 口 一 一 只 把 本 地 IP 地 址 和 本 地 端口 号 分 别 和 sin->sin addr 及 lport 进 行 比 较 。 我 
们 前 面 提 到 ， 只 有 当 所 有 REUSE 插 口 选项 都 没有 被 设置 时 ， 才 把 wild 设 成 
INPLOOKUP WILDCARD, 

111 调用 方 的 本 地 IP 地 址 值 存放 在 PCB 中 。 如 果 调 用 方 指定 ， 它 可 以 是 通 配 地 址 。 在 这 种 情 
况 下 ， 由 内 核 选 择 本 地 IP 地 址 ， 但 要 等 到 晚 些 时 候 插 口 连 接 上 时 。 这 就 是 为 什么 说 本 地 IP 地 
址 是 根据 外 部 IP 地 址 ， 由 IP 路 由 选择 决定 。 
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72 if (nam) ( M pene 
73 sin - mtod(nam, struct sockaddr in *); 
74 if (nam-»m len !- sizeof(*sin)) 
75 return (EINVAL); 
76 #ifdef notdef 
77 /* 
78 * We should check the family, but old programs 
79 * incorrectly fail to initialize it. 
80 wf 
81 if (sin-»sin family !- AF INET) 
82 return (EAFNOSUPPORT); 
83 #endif 
84 lport s sin-»sin, port;  /* might be O0 */ 
85 if (IN MULTICAST (ntohl(sin-»sin addr.s addr))) ( 
86 E" 
87 * Treat SO REUSEADDR as SO REUSEPORT for multicast; 
88 * allow complete duplication of binding if 
89 * SO REUSEPORT is set, or if SO REUSEADDR is set 
90 * and a multicast address is bound on both 
91 * new and duplicated sockets. 
92 * Jj 
93 if (so-»so options & SO REUSEADDR) 
94 reuseport - SO REUSEADDR | SO REUSEPORT; 
95 ) else if (sin-»sin addr.s addr !- INADDR ANY) ( 
96 Bin-»sln.port s 0; /* yech... */ 
97 if (ifa ifwithaddr((struct sockaddr *) sin) == 0) 
98 return (EADDRNOTAVAIL); 
99 ) 
100 if (lport) ( 
101 struct inpcb *t; 
102 FE GROSS x 
103 if (ntohs(lport) « IPPORT RESERVED && 
104 (error - suser(p-»p ucred, &p-»p acflag))) 
105 return (error); 
106 t = in pcblookup(head, zeroin addr, 0, 
107 sin-»sin addr, lport, wild); 
108 if (t && (reuseport & t-»inp socket-»so options) == 0) 
109 return (EADDRINUSE); 
110 } 
ela E h inp->inp_laddr = sin-»sin addr; /* might be wildcard */ 
112 ) ; 
in pcb.c 


图 22-22 in pcbbindrK AE: 处 理 可 选 的 nam 参 数 


当 调 用 方 显 式 绑 定 端口 0， 或 nam 参 数 是 一 个 空 指 针 ( 隐 式 绑 定 ) 时 ，in_pcbbinda 的 最 后 
一 部 分 (图 22-23) 处 理 分 配 一 个 临时 端口 
113-122 这 个 协议 (TCP 或 UDP) 使 用 的 下 一 个 临时 端口 号 被 维护 在 该 支 协 议 的 PCB 表 的 head: 
tcb 或 udb。 除 了 协议 的 head PCB 中 的 inp _ next 和 :inp _ back 指针 外 ，inpcb 结 构 另 一 个 唯一 
被 使 用 的 元 素 是 本 地 端口 号 。 令 人 迷惑 的 是 ， 这 个 本 地 端口 在 head PCB 中 是 主机 字 节 序 ， 而 在 表 
中 其 他 PCB 上 ， 使 用 的 却 是 网 络 字 节 序 ! 使 用 从 1024 开 始 的 临时 病 口 号 (IPPORT_RESERVED)， 
每 次 加 1， 直 到 5000(IPPORT USERRESERVED)， 然 后 又 从 1024 重 新 开始 循环 。 该 循环 一 直 
执行 到 in_pcbbind 找 不 到 匹配 为 止 。 

1. SO _ REUSEADDR 举 例 

让 我 们 通过 一 些 普通 的 例子 来 了 解 一 下 in_pcbbind 与 in_pcblookup 及 两 个 REUSE 插 
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口 选项 之 间 的 交互 。 
i in_pcb.c 
113 if [(lbo0ft => 0) 
114 do ( 
115 if (head-»inp lport-«« < IPPORT RESERVED || 
116 head-»inp lport > IPPORT USERRESERVED) 
117 head-»inp lport = IPPORT RESERVED; 
118 lport = htons (head-»inp. lport); 
119 ) while (in pcblookup(head, 
120 zeroin adar, 0, inp-»inp laddr, lport, wild)); 
121 inp-»inp. lport = lport; ， 
122 return (0); 
123; } 
in_pcb.c 





图 22-23 in pcbbind 国 数 : 选择 一 个 临时 端口 


1) TCP 或 UDP 通 和 以 调用 socket 和 bind 开 始 。 假 定 一 个 调用 binda 的 TCP 服 务 右 ， 指 定 
了 通 配 卫 地 址 和 它 的 非 零 知名 闹 口 23(Telnet 服 务 强 )。 还 假定 该 服务 右 还 没有 运行 ， 进 程 没 有 
设置 SO_REUSERADDR 揪 口 选项 。 

in pcbbind 把 INPLOOKUP WILDCARD 作 为 最 后 一 个 参数 ， 调 用 in _pcblookup。 
in_pcblookup 中 的 循环 设 有 找到 匹配 的 PCB ， 就 假定 没有 其 他 进程 使 用 服务 右 的 知名 TCP 
端口 ， 返 回 一 个 空 指针 。 一 切 正 常 ，in_ pcbbind,， 返 回 0。 

2) 假定 和 上 面相 同 的 情况 ， 但 当 再 次 试图 局 动 服 务 右 时 ， 该 服务 右 已 经 开始 运行 。 

当 调用 in_pcblookup 时 ， 它 发 现 了 本 地 插口 为 {*, 23} 的 PCB。 因 为 wildcard 计 数 器 
是 0， 所 以 in_pcblookup 返 回 指 癌 这 个 条 目的 指针 。 因 为 reuseport 是 0， 所 以 
in pcbbindiR|B]EADDRINUSE, 

3) 假定 与 上 面相 同 的 情况 ， 但 当 第 二 次 试图 局 动 服务 器 时 ， 指 定 了 SO_REUSERADDR 揪 口 
选项 。 

因为 指定 了 这 个 插口 选项 ， 所 以 in_pcbbind 在 调用 in_pcblookup 有 时 ， 最 后 一 个 参数 
为 0。 但 本 地 插口 为 {*, 23} 的 PCB 仍 然 匹 配 ， 因 为 in_pcblookup 无 法 比较 两 个 通 配 地 址 (图 
22-17)， 所 以 wildcard 为 0。in pcbbinad 又 返回 ERADDRINUSBE， 避 免 局 动 两 个 具有 相同 本 
地 插口 的 服务 器 例 程 ， 不 管 是 否 指定 了 SO_REUSERADDR。 

4) 假定 有 一 个 Telnet 服 务 絮 已 经 以 本 地 插口 {*, 23} 开 始 运行 ， 而 我 们 试图 以 另 一 个 本 地 
插口 {140.2$2.13.3$，23 1} 局 动 另 一 个 服务 器 。 

假定 没有 指定 SO REUSEADDR, 调用 ijn pcblookup 时 ， 最 后 一 个 参数 为 
INPLOOKUP WILDCRRD。 当 它 与 含有 *.23 的 PCB 比 较 时 ，wildcard 计 数 器 被 设 为 1。 因 为 
允许 通 配 匹配 ， 所 以 在 扫描 完 所 有 TCP PCB 后 ， 就 把 这 个 匹配 作为 最 佳 匹配 。in_pcbbinda 
y& [Bl EADDRINUSE, 

5) 这 个 例子 与 上 一 个 相同 ， 但 为 第 二 个 试图 绑 定 本 地 插口 {140.252.13.35, 23} 的 服务 器 指 
定 了 SO_REUSERADDR 揪 口 选 项 。 

现在 ，in_pcblookup 的 最 后 一 个 参数 是 0， 因 为 指定 了 插口 选项 。 当 与 本 地 插口 为 {*， 
23} 的 PCB 比 较 时 ，wildcarad 计 数 器 为 1， 但 因为 最 后 的 ELlags 参 数 是 0， 所 以 跳 过 这 个 条 目 ， 
不 把 它 记 作 匹 配 。 在 比较 完 所 有 TCP PCB 后 ， 国 数 返 回 一 个 空 指针 ，in_pPpcbbind 返 回 0。 
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6) 假定 当 我 们 试图 以 本 地 插口 {*, 23} 启 动 第 二 个 服务 器 时 ， 第 一 个 Telnet 服 务 器 以 本 地 插口 
(140.252.13.35, 23} 局 动 。 与 前 面 的 例子 一 样 ， 但 这 一 次 我 们 以 相反 的 顺序 启动 服务 器 。 

第 一 个 服务 器 的 启动 没有 问题 ， 假 定 疫 有 其 他 插口 绑 定 到 端口 23。 当 我 们 启动 第 二 个 服 
务 硕 时 ，in_pcblookup 的 最 后 一 个 参数 是 INPLOOKUP WILDCARD，, 假定 没有 指定 
SO_REUSEADDR 插 口 选 项 。 当 和 具有 本 地 插口 {140.252.13.35, 23} 的 PCB 比 较 时 ，wildcard 
被 设 成 1， 记 录 这 个 条 目 。 在 比较 完 所 有 TCP PCB 后 ， 返 回 指向 这 个 条 目的 指针 。 导 致 
in pcbbindjR|[BMEADDRINUSE, 

7) 如 果 我 们 局 动 同 一 个 服务 器 的 两 个 例 程 ， 并 且 都 是 非 通 配 本 地 IP 地 址 ， 会 发 生 什 么 情 
况 ? 假定 我 们 以 本 地 插口 {140.252.13.35, 23) 启动 第 一 个 Telnet 服 务 器 ， 然 后 试图 用 本 地 插口 
(127.0.0.1, 23} 局 动 第 二 个 服务 器 ， 且 不 指定 SO_REUSERDDR。 

当 第 二 个 服务 器 调用 in_pcbbind 时 ， 它 调用 in_pcblookup， 最 后 一 个 参数 是 
INPLOOKUP_WILDCARD。 当 比较 具有 本 地 插口 {140.252.13.35, 23} 的 PCB 时 ， 因 为 本 地 IP 地 址 
不 相等 ， 所 以 跳 过 它 。in_pcblookup 返 回 一 个 空 指针 ，in_pcbbind 返 回 0。 

从 这 个 例子 中 我 们 看 到 ，SO_REUSEADDR 插 口 选 项 对 非 通 配 IP 地 址 没有 影响 。 事 实 上 ， 只 
A “wildcard KAFO 时 ， 也 就 是 说 ， 当 PCB 条 目 具 有 一 个 通 配 卫 地 址 ， 或 者 绑 定 的 卫 地 址 是 一 
个 通 配 地 址 时 ， 才 检查 ijn_pcblookup 中 的 INPLOOKUP_WILDCARD 标 志 位 。 

8) 作为 最 后 一 个 例子 ， 假 定 我 们 试图 启动 同一 服务 器 的 两 个 例 程 ， 具 有 相同 的 非 通 配 本 
地 IP 地 址 127.0.0.1 。 

启动 第 二 个 服务 器 时 ，in_pcblookup 总 是 返回 具有 相同 本 地 插口 的 匹配 PCB。 不 管 是 否 指 
定 SO_REUSEADDR 插 口 选项 ， 都 发 生 这 种 情况 ， 因 为 对 这 种 比较 ，wildcard 计 数 器 总 是 0。 因 
为 jn_pcblookup 返 回 一 个 非 空 指 针 ， 所 以 ijn pcbbind 返 回 EADDRINUSE。 

从 这 些 例子 中 ， 我 们 可 以 指出 本 地 IP 地 址 和 So_REUSERADDR 揪 口 选 项 的 绑 定 规则 。 这 些 
规则 如 图 22-24 所 示 。 假 定 iocalIP1 和 LocalP2 是 在 本 地 主机 上 有 效 的 两 个 不 同 的 单 播 或 广播 IP 
地 址 ，ocalmcas1P 是 一 个 多 播 组 。 我 们 还 假定 进程 要 绑 定 到 一 个 已 经 绑 定 到 某 个 已 存在 PCB 
的 非 零 端口 号 。 

我 们 需要 区 分 单 播 或 多 播 地 址 和 一 个 多 播 地 址 ， 因 为 我 们 看 到 ，in_pcbbind 认 为 对 多 
播 地 址 SO_REUSEADDR 与 SO_CREUSEPORT 是 一 样 。 


LocalIP1 = EM PTS 和 端口 一 个 服务 器 
locallP1 | localIP2 每 个 本 地 接口 一 个 服务 器 


localIP1 * i 一 个 接口 一 个 服务 器 ， 其 他 接口 一 个 服务 器 
* localIPl i 一 个 接口 一 个 服务 器 ， 其 他 接口 一 个 服务 器 
+ i i | 不 能 复制 本 地 插口 (和 第 一 个 例子 一 样 ) 
locallPl | localIP1 j 多 个 多 播 接收 方 





图 22-24 SO_REUSERADDR 插 口 选项 对 绑 定 本 地 卫 地 址 的 影响 


2. SO REUSEPORT 插 口 选项 
Net/3 中 对 SO_REUSEPORT 的 处 理 改变 了 in_pcbbind 的 逻辑 , 只 要 指定 了 SO REUSEPORT, 
就 允许 复制 本 地 插口 。 换 言 之 ， 所 有 服务 器 都 必须 同意 共享 同一 本 地 端口 。 


22.8 in pcbconnect A% 
冰 数 in_pcbconnect 为 插口 指定 IP 地 址 和 外 部 端口 号 。 有 四 个 函数 调用 它 : 


590 TCP/IP Ž¥ Æ %2: XXL 


1) connect 为 某 个 TCP 揪 口 ( 某 个 TCP 客 户 的 请 求 ) 调 用 ， 

2) connect 为 某 个 UDP 插口 (对 UDP 客户 是 可 选 的 ，UDP 服 务 器 很 少见 ) 调 用 ， 

3) 当 在 一 个 没有 连接 上 的 UDP 插 口 (普通 ) 上 输出 数据 报时 从 sendto 调 用 ， 

4) 当 一 个 连接 请 求 (一 个 SYN 报 文 段 ) 到 达 一 个 处 于 LISTEN 状 态 ( 对 TCP 服 务 颖 是 标准 的 ) 
的 TCP 插 口 时 ，tcp _ input 调 用 。 

在 以 上 四 种 情况 下 ， 当 调用 in_pcbconnect 时 , 通常 ， 但 不 要 求 ， 不 指定 本 地 IP 地 址 
和 本 地 端口 。 因 此 ， 在 没有 指定 的 情形 下 ， 由 in_pcbconnect 的 一 个 国 数 给 它们 赋 一 个 本 
地 的 值 。 

我 们 将 分 四 个 部 分 讨论 in_pcbconnect 国 数 。 图 22-25 显 示 了 第 一 部 分 。 








in pcb.c 
131 in pcbconnect(inp, nam) 
132 struct inpcb *inp; 
133 struct mbuf *nam; 
134 ( 
135 struct in.ifaddr *ia; 
136 struct sockaddr in *ifaddr; 
137 struct sockaddr in *sin - mtod(nam, struct sockaddr in *); 
138 if (nam-»m len !- sizeof(*sin)) 
139 return (EINVAL); 
140 if (sin-»sin family !- AF INET) 
141 return (EAFNOSUPPORT); 
142 if (sin-»sin port -- 0) 
143 return (EADDRNOTAVAIL); 
144 if (in ifaddr) ( 
145 g” 
146 * If the destination address is INADDR_ANY, 
147 * use the primary local address. 
148 * If the supplied address is INADDR, BROADCAST, 
149 * and the primary interface supports broadcast, 
150 * choose the broadcast address for that interface. 
151 ui 
152 #define satosin(sa) ((struct sockaddr in *)(sa)) 
153 #define sintosa(sin) ( (struct sockaddr *) (sin)) 
154 #define ifatoia(ifa) ((struct in ifaddr *)(ifa)) 
155 if (sin-»sin addr.s addr -- INADDR ANY) 
156 sin-»sin, addr - IA SIN(in ifaddr)-»sin addr; 
157 else if (sin-»sin addr.s addr == (u long) INADDR BROADCAST && 
158 (in ifaddr-»ia ifp-»if flags & IFF. BROADCAST)) 
159 sin-»sin addr = satosin(&in ifaddr-»ia broadaddr)-»sin addr; 
160 ) A 
in pcb.c 
图 22-25 in _pcbconnect Kr: 验证 参数 ， 检 查 外 部 IP 地 址 
1. 确认 参数 


130-143 nam 参 数 指向 一 个 包含 sockaddr_in 结 构 以 及 外 部 IP 地 址 和 端口 号 的 mbuf。 这 
些 行 确认 参数 并 验证 调用 方 不 打算 连接 到 端口 号 为 0 的 端口 上 。 

2. 特别 处 理 到 0.0.0.0 和 255.255.255.255 的 连接 
134-160 对 全 局 变量 in_ifaddr 的 检查 证 实 已 配置 了 一 个 IP 接 口 。 如 果 外 部 地 址 是 
0.0.0.0(INADDR_ANY)， 则 用 最 初 的 IP 接 口 的 IP 地 址 代替 0.0.0.0。 这 就 是 说 ， 调 用 进程 是 连接 到 
这 个 主机 上 的 一 个 对 等 实体 的 。 如 果 外 部 IP 地 址 是 255.255.255.255 (INADDR BROADCAST), 
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而 且 原 来 的 接口 支持 广播 ， 则 用 原来 接口 的 广播 地 址 代替 255.255.255.255。 这 样 ，UDP 应 用 
程序 无 须 计 算 它 的 IP 地 址 ， 就 可 以 在 原来 的 接口 上 广播 一 一 它 可 以 人 简单 地 把 数据 报 发 送 给 
255.255.255.255， 由 内 核 把 这 个 地 址 转换 成 该 接口 合适 的 IP 地 址 。 

下 一 部 分 代码 ， 如 图 22-26 所 示 ， 处 理 没有 指定 本 地 地 址 的 情况 。 对 TCP 和 UDP 客 户 程 序 
来 说 ， 本 节 开 始 的 表 中 的 情形 1、2 和 3 是 非常 普遍 的 。 


i k in_pcb.c 
161 if (inp->inp_laddr.s_ađdr == INADDR ANY) { 
162 struct route *ro; 
163 la = (struct in lfaddr *) 0; 
164 pP* 
165 * If route is known or can be allocated now, 
166 * our src addr is taken from the i/f, else punt. 
167 7 
168 ro - &inp-»inp route; 
169 if (ro-»ro rt && 
170 (satosin(&ro-»ro dst)-»sin addr.s addr !- 
171 sin-»sin addr.s, addr |! 
172 inp-»inp.socket-»so options & SO DONTROUTE)) { 
173 RTFREE(ro-»ro rt); 
174 ro-»ro rt = (sStruct rtentry *) 0; 
175 } 
176 if ((inp-»inp socket-»so. options & SO DONTROUTE) == 0 && /* XXX */ 
i77 (ro-»ro rt - (struct rtentry *) 0 i| 
178 fO-»fo rt-»rt ifp == (Btrüct ifnect *) 07) ( 
179 /* No route yet, so try to acquire one */ 
180 ro-»ro,.dst.sa family = AF, INET; 
181 ro-»ro dst.sa len = sizeof(struct sockaddr. in); 
182 ( (struct sockaddr in *) &ro-»ro _ dst)->sin addr = 
183 sin-»sin, addr; 
184 rtalloc(í(ro); 
185 ) 
186 f? 
187 * If we found a route, use the address 
188 * corresponding to the outgoing interface 
189 * unless it is the loopback (in case a route 
190 * to our address on another net goes to loopback). 
191 "T 
192 if (ro-»ro rt && l!(ro-»ro rt-»rt ifp-»if flags & IFF LOOPBACK)) 
193 ia = ifatoia(ro-»ro rt-»rt ifa); 
194 ir Lia =a 0) 4 
195 u short fport - sin-»sin port; 
196 sin-»sin port - 0; 
197 ia = ifatoia(ifa ifwithdstaddr(sintosa(sin))); 
198 if [ia == 0) 
199 ia = ifatoia(ifa ifwithnet(sintosa(sin)));:; 
200 sin-»sin port - fport; 
201 if (ia == O0) 
202 ia = in ifaddr; 
203 lr tia == 0] 
204 return (EADDRNOTAVAIL); 
205 ) ' 
in pcb.c 


图 22-26 in pcbconnect 国 数 : 没有 指定 本 地 IP 地 址 
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3. 如 果 路 由 不 再 有 效 ， 则 释放 该 路 由 
164-175 如 果 PCB 中 含有 一 条 路 由 ， 但 该 路 由 的 目的 地 址 和 已 经 连接 上 的 外 部 地 址 不 同 ， 
或 者 SO_DONTROUTE 插 口 选 项 被 置 位 ， 则 放弃 该 路 由 。 

为 了 理解 为 什么 一 个 PCB 会 含有 一 条 相关 路 由 ， 考 虑 本 市 开始 的 表 中 的 情形 3: 每 次 在 一 
个 未 连接 上 的 插口 上 发 送 UDP 数 据 报 时 , 就 调用 in_pcbconnect 。 每 次 进程 调用 sendto 了 时， 
UDP 输 出 函数 调用 in pcbconnect, ip output 和 in pcbdisconnect。 如 果 在 该 插口 
上 发 送 的 所 有 数据 报 都 具有 相同 的 目的 IP 地 址 ， 则 第 一 次 通过 ijn_pcbconnect 时 ， 就 分 配 
了 一 条 路 由 ， 从 此 时 开始 可 以 使 用 该 路 由 。 但 是 ， 因 为 UDP 应 用 程序 可 能 在 每 次 调用 sendto 
时 ， 都 向 不 同 的 IP 地 址 发 送 数 据 报 ， 所 以 必须 比较 目的 地 址 和 保存 的 路 由 。 当 目的 地 址 改变 
时 ， 就 放弃 该 路 由 。ip_output 也 做 同样 的 检查 ， 这 看 起 来 似乎 是 多 余 的 。 

SO_DONTROUTE 播 口 选项 告诉 内 核 旁 路 掉 正 常 的 选 路 决策 ， 把 该 IP 数 据 报 发 到 本 地 连接 
的 接口 ， 该 接口 的 下 网 络 地 址 和 目的 地 址 的 网 络 部 分 匹配 。 

4. 获取 路 由 
176-185 如果 没 有 置 位 SO_DONTROUTE 揪 口 选项 ， 则 PCB 中 疫 有 到 目的 地 的 路 由 ， 就 要 调 
用 ztal1loc 获 取 一 条 路 由 。 

S. 确定 外 出 的 接口 
186-205 这 一 节 代 码 的 意图 是 让 ia 指向 一 个 接口 地 址 结构 (in_ifaddr，6.5 人 )， 该 结构 
中 包含 了 该 接口 的 IP 地 址 。 如 果 PCB 中 的 路 由 仍然 有 效 ， 或 者 如 果 rtalloc 找 到 一 条 路 由 ， 
并 且 该 路 由 不 是 到 回环 接口 的 ， 则 使 用 相应 的 接口 。 否 则 ， 调 用 ifa_withdstaddr 和 
ifa_withnet 检 查 该 外 部 IP 地 址 是 否 在 一 个 点 到 点 链 路 的 另 一 端 ， 或 者 位 于 一 个 连 到 的 网 络 
上 。 两 个 函数 都 要 求 插 口 地 址 结构 中 的 端口 号 为 0， 以 便 在 调用 期 间 保存 在 fport 中 。 如 果 失 
败 ， 就 用 原来 的 IP 地 址 (ijn_ifaddr)， 如 果 没 有 配置 接口 (ijn_ifaddr 为 0)， 则 返回 错误 。 

图 22-27 显 示 了 in_pcbconnect 的 下 一 部 分 ， 处 理 目 的 地 址 是 多 播 地 址 的 情况 。 
206-223 如 果 目 的 地 址 是 一 个 多 播 地 址 ， 且 进程 指定 了 多 播 分 组 的 外 出 接口 (用 
IP_MULTICAST_IF 插 口 选 项 )， 则 该 接口 的 IP 地 址 被 用 作 本 地 地 址 。 搜 索 所 有 IP 接 口 ， 找 到 
与 插口 选项 所 指定 接口 的 匹配 。 如 果 该 接口 不 存在 ， 则 返回 错误 。 

224-225 图 22-26 的 开头 是 处 理 通 配 本 地 地 址 情形 的 完整 代码 。 指 向 本 地 接口 ia 的 
sockaddr in 结 构 的 指针 保存 在 ifaddr 中 ，。 | 

in_pcblookup 的 最 后 一 部 分 显示 在 图 22-28 中 , 

6. 验证 插口 对 是 唯一 的 
227-233 in_pcblookup 验 证 插口 对 是 唯一 的 。 外 部 地 址 和 外 部 端口 号 是 指定 给 
in_pcbconnect 的 参数 的 值 。 本 地 地 址 是 已 经 绑 定 到 该 揪 口 的 值 ， 或 者 是 ifaddz 中 我 们 刚 
刚 介 绍 的 代码 计算 出 来 的 值 。 本 地 端口 可 以 是 0， 对 TCP 客 户 程序 来 说 这 是 典型 的 。 我 们 将 在 
这 部 分 代码 的 后 面 看 到 ， 为 本 地 端口 选择 了 一 个 临时 端口 。 

这 个 测试 避免 从 相同 的 本 地 地 址 和 本 地 端口 上 建立 两 个 到 同一 外 部 地 址 和 外 部 端口 的 
TCP 连 接 。 例 如 ， 如 果 我 们 与 主机 sun 上 的 回 显 服务 器 建立 了 一 个 TCP 连 接 ， 然 后 试图 从 同一 
本 地 端口 (8888， 用 -b 选 项 指定 ) 建 立 另 一 条 到 同一 服务 器 的 连接 ， 调 用 in_pPcblookupP 后 返 
回 一 个 匹配 ， 导 致 connect 返 回 差错 ERADDRINUSE( 我 们 用 卷 1 附 孙 C 的 sock 程 序 )。 

bsdi S sock -b 8888 sun echo & 启动 后 台 的 第 一 个 


bsdi S sock -A -b 8888 sun echo 然后 再 试 一 次 
connect () error: Address already in use 
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T $5 in pcb.c 
207 * If the destination address is multicast and an outgoing 
208 * interface has been set as a multicast option, use the 
209 * address of that interface as our source address. 
210 *7 
Fe isi if (IN MULTICAST (ntohl(sin-»sin addr.s addr)) && 
212 inp-»inp moptions !- NULL) { 
213 struct ip moptions *imo; 
214 struct ifnet *ifp; 
219 imo - inp-»inp moptions; 
216 if (imo-»imo multicast ifp !- NULL) 1 
217 ifp = imo-»imo multicast. ifp; 
218 for (ia = in.ifaddr; iá; ia = ia-»ia. next) 
219 if (ià-»ia.itfp == ifp) 
220 break; 
221 IT [xà == 9) 
222 return (EADDRNOTAVAIL); 
223 ) 
224 ) 
225 ifaddr = (struct sockaddr in *) &ia-»ia, addr; 
226 ) 
in pcb.c 
图 22-27 in pcbconnectiW Ak: 目的 地 址 是 一 个 多 播 地 址 
- - - - in_pcb.c 
221 if (in_pcblookup (inp->inp_head, 
228 sin->sin_addr, 
229 sin->sin_port, 
230 inp-»inp laddr.s addr ? inp->inp_laddr : ifaddr->sin_addr, 
231 inp-»inp. lport, 
252 0)) 
233 return (EADDRINUSE); 
234 if (inp-»inp laddr.s addr == INADDR ANY) ( 
235 if (inp-»inp lport == 0) 
236 (void) in pcbbind(inp, (struct mbuf *) 0); 
234 inp-»inp laddr = ifaddr-»sin, addr; 
238 } 
239 inp->inp_faddr = sin->sin_addr; 
240 inp->inp_fport = sin->sin_port; 
241 return (0); 
242 ) 
in pcb.c 


图 22-28 in pcbconnect 函 数 : 验证 插口 对 是 唯一 的 


我 们 指定 一 A 选项 ,设置 SO CREUSEADDR 插 口 选项 ， 使 bpDind 成 功 , 但 是 connect 不 成 功 。 
这 是 一 个 人 为 的 例子 ， 因 为 我 们 显 式 地 把 两 个 插口 都 绑 定 到 同一 本 地 端口 上 (8888)。 在 正常 情 
形 下 ， 主 机 bsdi 上 的 两 个 不 同 客 户 程 序 连接 到 sun 的 回 显 服务 器 上 ， 当 第 二 个 客户 程序 调用 
图 22-28 中 的 in _ pcblookup 国 数 时 ， 本 地 端口 将 是 0。 

这 个 测试 也 避免 了 两 个 UDP 插口 从 相同 的 本 地 端口 上 连接 到 同一 个 外 部 地 址 。 但 这 个 测试 不 
能 避免 两 个 UDP 插口 从 同一 个 本 地 端口 上 交替 地 向 同一 个 外 部 地 址 发 送 数据 报 ， 只 要 它们 都 不 调 
用 connect。 因 为 UDP 插口 在 sendto 系 统 调用 的 过 程 中 ， 只 是 临时 连接 到 一 个 对 等 实体 上 。 

7. 隐 式 绑 定 和 分 配 临时 端口 | 
234-238 ”如 果 插 口 的 本 地 地 址 仍然 是 通 配 匹 配 的 ， 则 把 它 设 置 成 1faddr 中 保存 的 值 。 这 
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是 一 个 隐 式 绑 定 : 22.7 0JF AGE UERUIRIE3. 4f05. Bb. Tutte UAE. 4 

果 没 有 ，in_pcbbina 就 把 该 插口 绑 定 到 一 个 临时 端口 。 调 用 in_pcbbind 和 给 

inp_1addzr 赋 值 的 顺序 很 重要 ， 因 为 如 果 本 地 地 址 不 是 通 配 地 址 ， 则 in_pcbbinq 会 失败 。 
8. 把 外 部 地 址 和 外 部 端口 存放 在 PCB 中 

239-240 这 个 国 数 的 最 后 一 步 设 置 PCB 的 外 部 下 地 址 和 外 部 闯 口 号 成 员 。 如 末 这 个 国 数 成 

功 返 回 ， 我 们 就 能 保证 PCB 中 的 插口 对 一 一 本 地 的 和 外 部 的 一 一 都 有 了 特定 的 值 。 


IP 源 地 址 与 外 出 接口 地 址 


在 IP 数 据 报 的 源 地 址 和 用 来 发 送 该 数据 报 接 口 的 IP 地 址 之 间 有 些微 妙 的 差别 。 

TCP 和 UDP 把 PCB 成 员 inp_1laddr 用 作 该 IP 数 据 报 的 源 地 址 。 它 可 由 进程 设 成 任何 被 
bind 配 置 的 接口 的 IP 地 址 (在 in_ pcbbind 中 调用 ifa ifwithaddr 验 证 应 用 程序 想 要 的 本 
地 地 址 )。 只 有 当 本 地 地 址 是 一 个 通 配 地 址 时 ，in_pcbconnect 才 给 它 赋 值 。 而 当 这 种 情况 
发 生 时 ， 本 地 地 址 是 根据 外 出 接口 分 配 的 (因为 目的 地 址 已 知 )。 

但 是 ， 外 出 接口 也 是 根据 目的 IP 地 址 ， 由 ip_output 确 定 的 。 在 多 接口 主机 上 ， 当 进程 
显 式 绑 定 一 个 不 同 于 外 出 接口 的 本 地 地 址 时 ， 产 地 址 有 可 能 是 一 个 本 地 接口 的 IP 地 址 ， 且 该 
接口 不 是 外 出 的 接口 。 这 种 情况 是 允许 的 ， 因 为 Net/3 选 择 了 弱 闹 系统 模式 (8.4 市 )。 


22.9 in pcbdisconnectrHZi 





ip pcbdisconnectjEUDPi& O EE., TESPEBIPHEREWREXARO(INADDR ANY), MED 
口号 设 成 0， 就 把 外 部 相关 内 容 删除 了 。 

这 是 在 已 经 在 一 个 未 连接 上 的 UDP 插口 上 发 送 了 一 个 数据 报 后 ， 在 一 个 连接 上 的 UDP 插 
口上 调用 connect 时 做 的 。 在 第 一 种 情况 下 ， 调 用 senato 的 次 序 是 : UDP 调用 
in_ pcbconnect 把 插口 临时 连接 到 目的 地 ，udp_output 发 送 数 据 报 ， 然 后 
in pcbdisconnect 删 除 临 时 连接 。 

当 关 闭 插 口 时 ， 不 调用 ijn pcbdaisconnect， 因 为 in_ pcbdetach 处 理 释 放 PCB 。 只 
有 当 一 个 不 同 的 地 址 或 闯 口 号 要 求 重 用 该 PCB 时 ， 才 断 连 。 

图 22-29 显 示 了 in pcbdisconnect Á. 


ngo: in pcb.c 
244 in, pcbdisconnect (inp) 
245 struct inpcb *inp: 
246 ( 
247 inp-»inp faddr.s addr = INADDR, ANY; 
248 inp-»inp.fport = 0; 
249 if (inp-»inp socket-»so state & SS NOFDREF) 
250 in pcbdetach(inp); 
251 ) 
in pcb.c 


图 22-29 in pcbdisconnectiA Ak: 与 外 部 地 址 和 端口 号 断 连 


如 果 该 PCB 不 再 有 文件 表 引 用 (SS_NOFDREEF 置 位 )， 则 in_pcbdetach( 图 22-7) 释 放 访 
PCB, 
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22.10 in setsockaddr 和 in setpeeraddriA£Zi 


getsockname 系 统 调用 返回 插口 的 本 地 协议 地 址 (例如 ，Internet 插 口 的 IP 地 址 和 端口 
号 )，getpeername 系 统 调 用 返回 外 部 协议 地 址 。 两 个 系统 调用 终止 时 ， 都 发 布 一 个 
PRU SOCKADDREPRU PEERADDR 请 求 。 然 后 协议 调用 in setsockaddr 或 
in setpeeraddr。 图 22-30 显 示 了 以 上 的 第 一 种 情况 。 


267 int in_pcb.c 
268 in setsockaddr(inp, nam) 
269 struct inpcb *inp; 
270 struct mbuf *nam; 
Zi Í 
272 scruüuct sockaddr.in *sin; 
273 nam-»m len - sizeof(*sin); 
274 sin = mtod(nam, struct sockaddr in *); 
295 bzero((caddr . t) sin, sizeof(*sin)); 
276 sin-»sin family = AF, INET; 
27 sin-»sin len - sizeof(*sin); 
278 Sin-»Sin, port = inp-»inp lport; 
279 sin-»sin addr - inp-»inp laddr; 
280 ) : 
in pcb.c 


图 22-30 in setsockaddrtEKRA: 返回 本 地 地 址 和 端口 号 


参数 nam 是 一 个 指针 ， 该 指针 指向 一 个 用 来 存放 结果 的 mbuf: 一 个 sockaddr_in 结 构 ， 
系统 调用 复制 给 进程 的 备份 。 该 代码 填写 插口 地 址 结构 的 内 容 ， 并 把 IP 地 址 和 端口 号 从 
Internet PCB 撕 贝 到 sin addr 和 sin port 成 员 中 。 

图 22-31 显 示 了 in_setpeeraddr 函 数 。 它 基本 上 等 同 于 图 22-30 中 的 代码 ， 但 从 PCB 中 
拷贝 了 外 部 IP 地 址 和 端口 号 。 


281 int "Ep 

282 in setpeeraddr(inp, nam) 

283 struct inpcb *inp; 

284 struct mbuf *nam; 

285 ( 

286 struct sockaddr in *sin; 

287 nam-»m len - sizeof(*sin); 

288 sin = mtod(nam, struct sockaddr. in *); 

289 bzero((caddr t) sin, sizeof(*sin)); 

290 Ssin-»sin family = AF. INET; 

291 Sin-»sin len = sizeof(*sin); 

292 sin-»sin port = inp-»inp fport; 

293 Sin-»sin, addr = inp-»inp faddr; 

294 ) ; 
in_pcb.c 


图 22-31 in setpeeraddrÁğx: 返回 外 部 地 址 和 端口 号 


22.11 in pcbnotify, in rtchange 和 in Losing 函 数 


当 收 到 一 个 ICMP 差 错时 ， 调 用 in_pcbnotify 函 数 ， 把 差错 通知 给 合适 的 进程 。 通 过 
对 所 有 的 PCB 搜 索 一 个 协议 (TCP 或 UDP)， 并 把 本 地 和 外 部 IP 地 址 及 端口 号 与 CMP 差 错 返回 
的 值 进行 比较 ， 找 到 “合适 的 进程 "。 例 如 ， 当 因为 一 些 路 由 器 丢掉 了 某 个 TCP 报 文 段 而 收 到 
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ICMP 源 抑制 差错 时 ，TCP 必 须 找 到 产生 该 差错 的 连接 的 PCB ， 放 慢 在 该 连接 上 的 传输 速度 。 
在 显示 该 函数 之 前 ， 我 们 必须 回顾 一 下 它 是 怎样 被 调用 的 。 图 22-32 总 结 了 处 理 ICMP 差 
错时 调用 的 函数 。 两 个 有 阴影 的 椭圆 是 本 市 描述 的 函数 。 





或 和 
协议 的 控制 pfctlinput: 所 有 
输入 函数 协议 的 控制 输入 函数 





(软件 中 断 ) 
图 22-32 ICMP 差 错 处 理 总 结 


当 收 到 一 个 ICMP 报 文 时 ， 调 用 icmp_input。ICMP 的 五 种 报 文 按 差 错 来 划分 (图 11-1 和 
图 11-2): 

。 目 的 主机 不 可 达 ， 

。 人 参数 问题 

* EB; 

。 源 抑制 ; 

“超时 。 

重 定 回 的 处 理 不 同 于 其 他 四 个 差错 。 所 有 其 他 的 ICMP 报 文 ( 查 询 ) 的 处 理 见 第 11 章 。 

每 个 协议 都 定义 了 它 的 控制 输入 函数 ， 即 protosw 结 构 (7.4 节 ) 中 的 pr_ctlinput 条 目 。 
对 TCP 和 UDP， 它 们 分 别称 为 tcp_ctlinput 和 udp_ct1linput，, 我 们 将 在 后 面 几 章 给 出 它 
们 的 代码 。 因 为 收 到 的 ICMP 差 错 中 包含 了 引起 差错 的 数据 报 的 卫 首 部 ， 所 以 引起 该 差错 的 协 
议 (TCP 或 UDP) 是 已 知 的 。 这 五 个 ICMP 差 错 中 的 四 个 将 引起 对 协议 的 控制 输入 函数 的 调用 。 
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重 定向 的 处 理 不 同 : 调用 函数 pfctlinput， 它 继续 调用 协议 族 (Internet) 中 所 有 协议 的 控制 
输入 函数 。TCP 和 UDP 是 Internet 协 议 族 中 仅 有 的 两 个 具有 探 制 输入 函数 的 协议 。 

重 定向 的 处 理 是 特殊 的 ， 因 为 它们 不 仅 影 响 产 生 重 定 同 的 数据 报 ， 还 将 影响 所 有 到 该 目 
的 地 的 IP 数 据 报 。 男 一 方面 ， 其 他 四 个 差错 只 需 由 产生 差错 的 协议 进行 处 理 。 


TEST in pcb.c 
307 in pcbnotify(head, dst, fport arg, laddr, lport arg, cmd, notify) 

308 struct inpcb *head; 

309 struct sockaddr *dst; 

310 u, int fport arg, lport arg; 

311 struct in addr laddr; 


312 int cmd; 

313 void (^notify) (struct inpcb *, int); 

314 ( 

3135 extern u char inetctlerrmap[]; 

316 struct inpcb *inp, *oinp; 

317 struct in, addr faddr; 

318 u short fport = fport, arg, lport = lport,. arg; 

319 int errno; 

320 if ((unsigned) cmd > PRC NCMDS || dst-»sa family !- AF INET) 
321 return; 

322 faddr - ((struct sockaddr in *) dst)-»sin addr; 

323 if (faddr.s addr -- INADDR ANY) 

324 return; 

325 f” 

326 * Redirects go to all references to the destination, 
327 * and use in rtchange to invalidate the route cache. 
328 * Dead host indications: notify all references to the destination. 
329 * Otherwise, if we have knowledge of the local port and address, 
330 * deliver only to that socket. 

331 wj 

332 if (PRC IS, REDIRECT(cmd) || cmd == PRC, HOSTDEAD) ( 
333 fport = Q; 

334 lport = Q 

335 | laddr,s addr = 0; 

336 if (cmd != PRC HOSTDEAD) 

337 notify - in rtchange; 

338 ) 

339 errno = inetctlerrmap([ocmd]; 

340 for (inp - head-»inp next; inp !- head;) ( 

341 if (inp-»inp faddr.s addr !- faddr.s addr || 

342 inp-»inp socket =s O0 || 

343 (lport && inp-»inp.lport t= lport) || 

344 (laddr.s addr && inp-»inp laddr.s addr !- laddr.s. addr) || 
345 (fport && inp-»inp fport Y= fport)) ( 

346 inp - inp-»inp next; 

347 continue; /* skip this PCB */ 

348 ) 

349 oinp = inp; 

350 inp = inp-»inp next; 

351 lt (notify) 

352 (*notify) (oinp, errno); 

353 ) 

354 ) 





in pcb.c 
图 22-33 in spcbnotifytüZy: 把 差错 通知 传 给 进程 
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有 关 图 22-32 我 们 要 做 的 最 后 一 点 说 明 是 ，TCP 在 处 理 源 抑制 差错 时 ， 与 其 他 差错 的 处 理 
不 同 ， 而 重 定向 由 in_pcbnotiEfy 特 别处 理 : 不 管 引 起 差错 的 是 什么 协议 ， 都 调用 
in rtchange[IK A, 

图 22-33 亚 示 了 in_pcbnotify 国 数 。 当 ICP 调 用 它 时 ， 第 一 个 参数 是 tkcb 的 地 址 ， 最 后 
一 个 参数 是 函数 tcp_notify 的 地 址 。 对 UDP 来 说 ， 这 两 个 参数 分 别 是 udb 的 地 址 和 函数 
udp notify 的 地 址 。 

1. 验证 参数 
306-324 验证 cmd 参 数 和 目的 地 址 族 。 检 测 外 部 地 址 ， 保 证 它 不 是 0.0.0.0。 

2. 特殊 处 理 重 定 问 
325-338 如 琳 差 错 是 重 定 同 , 则 对 它 的 处 理 是 特殊 的 (差错 PRC_HOSTDEAD 是 一 种 旧 的 差错 ， 
由 IMP 产 生 。 目 前 的 系统 再 也 看 不 到 这 种 差错 了 一 一 它 是 一 个 历史 产物 )。 外 部 端口 、 本 地 端口 
和 本 地 地 址 都 被 设 成 全 0， 这 样 后 面 的 for 循 环 就 不 会 比较 它们 了 。 对 于 重 定向 ， 我 们 需要 该 
循环 只 根据 外 部 IP 地 址 选 出 接收 通知 的 PCB， 因 为 主机 是 在 这 个 IP 地 址 上 接收 到 重 定向 的 。 而 
且 ， 为 重 定 疝 调用 的 函数 是 in_rtchange( 图 22-34)， 而 不 是 调用 方 指定 的 notify 参 数 。 
339 全 局 数组 inetctlerrmap 把 协议 无 关 差 错 码 (图 11-19 中 的 PRC_xxx 值 ) 映 射 到 它 对 应 的 
Unix 和 的 errno 值 (图 11-1 的 最 后 一 栏 )。 

3. 为 所 选 的 PCB 调 用 通知 困 数 
341-353 这 个 循环 选择 要 通知 的 PCB 。 可 以 通知 多 个 PCB 一 -一 该 循环 在 找到 匹配 后 仍然 继 
续 。 弟 一 个 if 语 句 结合 了 五 个 检测 ， 如 果 这 五 个 中 有 任 一 个 为 真 ， 则 跳 过 该 PCB : (1) 如 果 外 
部 地 址 不 相等 ; (2) 如 果 该 PCB 没 有 对 应 的 socket 结 构 ，(3) 如 果 本 地 端口 不 相等 ，(4) 如 果 本 
地 地 址 不 相等 ; (5) 如 果 外 部 病 口 不 相等 。 外 部 地 址 必须 匹配 ， 但 只 有 当 对 应 的 参数 非 零 时 ， 
才 比 较 其 他 三 个 外 部 和 本 地 参数 。 当 找到 一 个 匹配 时 ， 调 用 notify 函 数 。 


22.11.1 in rtchange ži 


我 们 看 到 ， 当 ICMP 差 错 是 一 个 重 定 同 时 ，in_pcbnotify 调 用 in_rtchange 函 数 。 对 
所 有 外 部 地 址 与 已 重 定 向 的 IP 地 址 匹配 的 PCB， 都 调用 该 函数 。 图 22-34 显 示 了 
in ztchange 国 数 。 


391 void "ee 
392 in rtchange(inp, errno) 
393 struct inpcb *inp; 
394 int errno; 
395 ( 
396 if (inp-»inp route.ro rt) 1 
397 rtfree(inp-»inp route.ro rt); 
398 inp-»i1np route,.ro rt = 0; 
399 /[* 
400 * A new route can be allocated the next time 
401 * output is attempted. 
402 f i 
403 } 
404 } 
in pcb.c 


图 22-34 in rtchange 国 数 : 使 路 由 无 效 
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如 果 该 PCB 中 有 路 由 ， 则 ztfree 释 放 该 路 由 ， 且 该 PCB 成 员 被 标记 为 空 。 此 时 ， 我 们 不 
用 重 定向 返回 的 路 由 来 更 新 路 由 。 当 这 个 PCB 被 再 次 使 用 时 ，ip_output 会 根据 内 核 的 选 路 
表 重 新 分 配 新 的 路 由 ， 而 该 选 路 表 是 在 调用 pfct1linput 之 前 ， 由 重 定向 报 文 更 新 的 。 


22.11.2 重 定 向 和 原始 插口 


让 我 们 来 研究 一 下 重 定向 、 原 始 播 口 和 缓存 在 PCB 中 的 路 由 之 间 的 交互 。 如 果 我 们 运行 
ping 程 序 ， 该 程序 使 用 一 个 原始 插口 ， 收 到 来 自 被 ping 的 IP 地 址 发 来 的 ICMP 重 定向 差错 。 
ping 程 序 继续 使 用 原来 的 路 由 ， 而 不 是 已 重 定向 的 路 由 。 我 们 可 以 从 以 下 过 程 来 看 。 

我 们 从 位 于 1 402 521 网 络 上 的 gemini 主 机 ping 位 于 14 025 213 网 络 上 的 svz4 主 机 。 
gemini 的 默认 路 由 是 gateway， 但 分 组 应 该 被 发 送 到 路 由 器 netb。 图 22-35 显 示 了 这 个 安排 。 


ping 客户 
重新 选 路 到 140.252.1.183 i 
CE n E EUME TERUEL gemini 
ICMP 回 显 请 求 EET 


以 太 网 140.252.1 


以 太 网 140.252.13 


图 22-35 ICMP 重 定向 举例 


我 们 希望 gateway 在 收 到 第 一 个 ICMP 回 显 请 求 时 ， 发 一 个 重 定 同 。 


gemini $ ping -sv svr4 
PING 140.252.13.34: 
ICMP Host redirect 


56 data bytes 
from gateway 140.252.1.4 


to netb (140.252.1.183) for svrA4 (140.252.13.34) 


64 bytes from svr4 
ICMP Host redirect 


(140.,252.13.34] : 
from gateway 140.252.1.4 


icmp. seq-0. time-572. ms 


to netb (140.252.1.183) for svr4 (140.252.13.34) 


64 bytes from svr4 


(140.252.13.34) : 


icmp seq-1. time-392. ms 


选项 -s 使 每 隔 一 秒 发 送 一 次 ICMP 回 显 请 求 ， 选 项 -v 打 印 每 个 收 到 的 ICMP 报 文 (不 仅仅 是 


ICMP 回 显 回答 )。 


每 个 ICMP 回 显 请 求 引出 一 个 重 定向 ， 但 ping 使 用 的 原始 插口 从 来 不 通知 重 定向 改变 它 正 
在 使 用 的 路 由 。 第 一 次 计算 出 来 并 被 保存 在 PCB 中 的 路 由 ， 使 IP 数 据 报 被 发 送 到 路 由 规 
gateway{140.252.1.4}， 应 该 更 新 它 ， 使 数据 报 能 被 发 送 到 路 由 器 netb{140.252.1.183} 上 。 
我 们 看 到 ，gemini 上 的 内 核 接收 ICMP 重 定向 ， 但 它们 被 略 过 了 。 

如 果 我 们 终止 ping 程 序 ， 并 重新 运行 它 ， 我 们 就 再 也 看 不 到 重 定向 了 : 


gemini $ ping -sv svr4 
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PING 140.252.13.34: 56 data bytes 
64 bytes from svr4 (140.252.13.34): icmp seq-0,time-388. ms 
64 bytes from svr4 (140.252.13.34): icmp seq-1. time-363. ms 


这 个 不 正常 的 原因 是 原始 IP 插 口 代码 (第 32 章 ) 没 有 控制 输入 函数 。 只 有 TCP 和 UDP 有 控制 
输入 函数 。 当 收 到 重 定向 时 ，ICMP 更 新 内 核 的 选 路 表 ， 调 用 pfct1linput( 图 22-32)。 但 是 因 
为 原始 IP 协 议 没 有 控制 输入 函数 ,所 以 不 释放 与 ping 的 原始 插口 相关 的 PCB 中 高 速 缓存 的 路 由 。 
但 是 ， 当 我 们 第 二 次 运行 ping 程 序 时 ， 根 据 内 核 更 新 后 的 选 路 表 分 配 路 由 ， 所 以 我 们 看 不 到 
HERT. 


22.11.3 ICMP 差 错 和 UDP 插口 


插口 API 令 人 迷惑 的 一 部 分 是 ， 不 把 在 UDP 插口 上 收 到 的 ICMP 差 错 传 给 应 用 程序 ， 除 非 
该 应 用 程序 在 该 插口 上 发 布 connect， 限 制 该 插口 的 外 部 IP 地 址 和 端口 号 。 现 在 我 们 来 看 一 
下 in_pcbnotify 是 如 何 实施 这 一 限制 的 。 

考虑 某 个 ICMP 插 口 不 可 达 ， 这 大 概 是 UDP 插 口上 最 普通 的 一 种 ICMP 差 错 了 。 
in_pcbnotify 的 dst 参 数 内 的 外 部 IP 地 址 和 外 部 端口 号 是 引起 ICMP 差 错 的 IP 地 址 和 端口 
号。 但是， 如 果 该 进程 已 经 在 该 插口 上 发 布 connect 命 令 ， 则 PCB 的 jnp_faddr 和 
inp_fport 成 员 都 是 0， 训 免 in pcbnotify 在 该 插口 上 调用 notify 国 数 。 图 22-33 中 的 
for 循 环 将 跳 过 每 个 UDP PCB, 

产生 这 个 限制 的 原因 有 两 个 。 首 先 ， 如 果 正 在 发 送 的 进程 有 一 个 未 连接 上 的 UDP 插口 ， 
则 该 插口 对 中 唯一 的 非 零 元 素 是 本 地 端口 (假定 该 进程 不 调用 bind)。 这 是 in_pcbnotify 在 
分 用 进入 的 ICMP 差 错 ， 并 把 它 传 给 正确 进程 时 ， 唯 一 可 用 的 值 。 尽 管 很 少 发 生 ， 但 也 可 能 有 
多 个 进程 都 绑 定 到 相同 的 本 地 端口 上 ， 所 以 具体 由 哪个 进程 接收 ICMP 差 错 就 不 明确 了 。 还 有 
一 种 可 能 就 是 ， 发 送 引起 ICMP 差 错 数据 报 的 进程 已 经 终止 了 ， 而 另 一 个 进程 又 开始 运行 并 使 
用 同一 本 地 端口 。 这 也 不 太 可 能 ， 因 为 临时 端口 是 从 1024 到 5000 按 顺序 分 配 的 ， 只 有 循环 一 
遍 以 后 才 可 能 重用 同一 端口 号 (图 22-23)。 

这 个 限制 的 第 二 个 原因 是 ， 内 核 给 进程 的 差错 通知 一 一 一 个 errno 值 一 一 是 不 够 的 。 考 
虑 某 个 进程 连续 三 次 在 一 个 未 连接 上 的 UDP 插口 上 调用 sendato 国 数 ， 向 三 个 不 同 的 目的 地 发 
送 一 个 UDP 数据 报 ， 然 后 用 zxecvfrom 等 竺 回答。 如 果 其 中 一 个 数据 报 生成 一 个 ICMP 端 口 不 
可 达 差 错 ， 且 内 核 将 同 该 进程 发 布 的 recvfrom 返 回 对 应 的 差错 (ECONNREFUSED)， 那 么 ， 
errno 值 并 没有 告诉 进程 是 哪个 数据 报 产生 了 该 差错 。 内 核 具 有 ICMP 差 错 所 要 求 的 所 有 信息 ， 
但 是 插口 API 并 不 提供 手段 把 这 些 信息 返回 给 该 进程 。 

因此 ， 如 果 进 程 想 要 得 到 在 某 个 UDP 播 口上 的 这 些 ICMP 差 错 通知 ， 在 设计 时 就 必须 决定 
插口 只 能 连接 到 一 个 对 等 实体 上 。 如 果 在 该 连接 上 的 插口 返回 ECONNREFUSED 差 错 ， 毫 无 疑 
问 就 是 该 对 等 实体 产生 的 差错 。 

还 有 一 种 远程 可 能 性 ， 会 把 ICMP 差 错 交 付 给 错误 的 进程 。 假 设 某 个 进程 发 送 了 一 个 UDP 
数据 报 ，5| 起 一 个 ICMP 差 错 ,， 但 它 在 收 到 该 差错 之 前 终止 了 。 另 一 个 进程 在 收 到 该 差错 之 前 
开始 运行 ， 并 且 绑 定 到 同一 个 本 地 端口 ， 连 接 到 相同 的 外 部 地 址 和 外 部 端口 上 ， 导 致 这 个 新 
进程 接收 到 前 面 的 ICMP 差 错 。 由 于 UDP 缺少 内 存 ， 所 以 无 法 避免 这 种 情况 的 发 生 。 我 们 将 看 
到 TCP 用 它 的 TIME_WAIT 状 态 处 理 这 个 问题 。 

在 我 们 前 面 的 例子 中 ， 应 用 程序 绕 开 这 个 限制 的 一 个 办 法 是 使 用 三 个 连接 上 的 UDP 插口 ， 
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而 不 是 一 个 未 连接 上 的 插口 ， 并 在 其 中 任意 一 个 有 收 到 的 数据 报 或 差错 要 读 写 时 ， 调 用 
select KKM. 
这 里 我 们 有 一 种 情形 是 内 核 有 足够 的 信息 而 API( 插 口 ) 的 信息 不 足 。 大 多 数 Unix 
System V 及 其 他 常见 的 API(TLI)， 其 送 为 真 : TLI 函 数 上 _rcvuderL 可 以 返回 对 等 实 
体 的 IP 地 址 、 端 口号 以 及 一 个 差错 值 。 但 大 多 数 TCP/IP 的 SVR4 流 实现 都 不 为 ICMP 
提供 手段 ， 把 差错 传递 给 一 个 未 连接 上 的 UDP 启 节点 。 
在 理想 情况 下 ，in pcbnotify 把 ICMP 差 错 交 付 给 所 有 匹配 的 UDP 插口 ， 即 使 
唯一 的 非 通 配 匹 配 是 本 地 盖 口 。 返 回 给 进程 的 差错 将 包括 产生 差错 的 目的 IP 地 址 和 
目的 UDP 端 口 ， 允 许 进程 确定 该 差错 是 否 是 它 发 送 的 数据 报 产 生 的 。 


22.11.4 in losing 函 数 


处 理 PCB 的 最 后 一 个 函数 图 22-36 的 in_losing。 当 TCP 的 某 个 连接 的 重 传 定时 器 连续 第 
三 次 超时 时 ， 调 用 该 函数 。 


361 int n pbe 
362 in_losing (inp) 
363 struct inpcb *inp; 
364 ( 
365 struct rtentry *rt; 
366 struct rt addrinfo info; 
367 if ((rt = inp-»inp.route.ro.rt)) ( 
368 inp-»inp route.ro rt = 0; 
369 bzero((caddr t) & info, sizeof(info)); 
370 info.rti info[RTAX DST] - 
3741 (struct sockaddr *) &inp-»inp route.ro dst; 
372 info.rti info[RTAX GATEWAY] - rt-»rt gateway; 
41323 info.rti info[RTAX NETMASK] - rt mask(rt); 
374 rt missmsg(RTM LOSING, &info, rt-»rt flags, 0); 
375 if (rt-»rt flags & RTF. DYNAMIC) 
376 (void) rtrequest(RTM DELETE, rt key(rt), 
377 rt-»rt gateway, rt mask(rt), rt-»rt flags, 
378 (struct rtentry **) 03; 
379 else 
380 y* 
381 * A new route can be allocated 
382 * the next time output is attempted. 
383 at i 
384 rtfree(rt); 
385 } 
386 } 
in_pcb.c 


图 22-36 in_losing 国 数 : 使 高 速 缓存 路 由 信息 无 效 


1. 产生 选 路 报 文 
361-374 如 果 PCB 中 有 一 个 路 由 ， 则 丢掉 该 路 由 。 用 要 失效 的 高 速 缓存 路 由 的 有 关 信 息 填 
充 一 个 xt_addrinfo 结 构 。 然 后 调用 rt_missmsg 国 数 ， 从 RTM LOSING 类 型 的 选 路 插口 
中 生成 一 个 报 文 ， 指 明 有 关 该 路 由 的 问题 。 
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2. 删除 或 释放 路 由 
375-384 如 采 高 速 缓存 路 由 是 由 一 个 重 定 向 生成 的 (RTE_DYNRAMIC 置 位 )， 则 用 请 求 
RTM_DELETE 调 用 rtrequest ， 删 除 该 路 由 。 人 否则 释放 高 速 缓存 的 路 由 ， 这 样 ， 当 该 插口 上 
有 下 一 个 输出 时 ， 为 它 重新 分 配 一 条 到 目的 地 的 路 由 一 一 希望 是 一 条 更 好 的 路 由 。 


22.12 实现 求 精 


毫 无 疑问 ， 这 一 章 我 们 过 到 的 最 耗 时 的 算法 是 in_pcblookup 做 的 对 PCB 的 线性 搜索 。22.6 
让 一 开始 ， 我 们 就 注意 到 有 四 种 情况 会 调用 这 个 国 数 。 可 以 忽略 对 bind 和 connect 的 调用 ， 因 
为 TCP 和 UDP 在 分 用 每 个 收 到 的 卫 数 据 报时 ， 调 用 它们 的 次 数 比 调用 in_Pcblookup 的 少 得 多 。 

后 面 儿 章 我 们 将 看 到 ，TCP 和 UDP 试图 帮助 这 个 线性 搜索 ， 它 们 都 维护 一 个 指向 该 协议 
引用 的 最 后 一 个 PCB 的 指针 : 一 个 单条 目 高 速 缓存 。 如 果 高 速 缓存 的 PCB 的 本 地 地 址 、 本 地 
端口 、 外 部 地 址 和 外 部 端口 与 收 到 的 数据 报 的 值 匹 配 ， 则 协议 根本 就 不 调用 in_pcblookup。 
如 果 协 议 数 据 适 合 分 组 列 模型 [Jain 和 Routhier 1986]， 这 个 简单 的 高 速 缓存 效果 很 好 。 但 是 ， 
如 果 数 据 不 适合 这 个 模型 ， 例 如 ， 看 起 来 像 联机 交易 处 理 系 统 的 数据 条 目 ， 则 单条 目 高 速 缓 
存 的 效率 很 低 [McKenney 和 Dove 1992], 

一 个 稍 好 一 点 的 PCB 安 排 的 建议 是 ， 当 引用 某 个 PCB 时 ， 把 它 移 到 该 PCB 表 的 最 前 面 
([McKenney 和 Dove 1992] 把 这 个 想法 给 了 Jon Crowcroft，[Partridge 和 Pink 1993] 把 它 给 了 
Gary Delp)。 移 动 PCB 很 容易 ， 因 为 该 表 是 一 个 双 疝 链表 ， 而 且 in_pcblookup 的 第 一 个 参 
数 是 一 个 指 问 该 表 表 头 的 指针 。 

[McKenney 和 Dove 1992] 把 原始 的 Net/1 实 现 ( 没 有 高 速 缓存 )， 一 种 提高 的 单条 目 发 送 一 接 
收 高 速 缓存 ,，“ 移 到 最 前 面 ” 启 发 算法 ， 以 及 他 们 自己 的 使 用 散 列 链 的 算法 做 了 比较 。 他 们 指 
出 ， 在 散 列 链 上 维护 一 个 PCB 的 线性 表 比 其 他 算法 的 性 能 提高 了 一 个 数量 级 。 散 列 链 的 唯一 
耗费 是 需要 内 存 存放 散 列 链 的 链 头 ,以 及 计算 散 列 函数 。 他 们 也 考虑 把 “ 移 到 最 前 面 ”启发 
算法 与 他 们 的 散 列 链 算 法 结合 ， 结 论 是 只 增加 一 些 散 列 链 ， 更 为 简单 。 

BSD 线 性 搜索 和 散 列 表 搜 索 的 另 一 个 比较 是 在 [Hutchinson 和 Peterson 1991] 中 。 他 们 指出 ， 
随 着 散 列 表 中 插口 数量 的 增加 ， 分 用 一 个 进入 的 UDP 数据 报 所 需要 的 时 间 是 常量 ， 但 线性 搜 
索 所 需要 的 时 间 随 插口 数量 的 增加 而 增加 。 


22.13， 小 结 


每 个 Internet 插 口 都 有 一 个 相关 的 Internet PCB; TCP、UDP 和 原始 IP。 它 包含 了 Internet 插 
口 的 一 般 信 息 : 本 地 和 外 部 IP 地 址 ， 指 向 一 个 路 由 结构 的 指针 等 等 。 给 定 协议 的 所 有 PCB 都 
放 在 该 协议 维护 的 一 个 双 疝 链表 上 。 

本 章 中 ， 我 们 研究 了 多 个 操作 PCB 的 函数 ， 对 其 中 的 三 个 做 了 详细 的 讨论 : 

1) TCP 和 UDP 调 用 in_pcblookup 分 用 每 个 进入 的 数据 报 。 它 选择 接收 数据 报 的 插口 ， 
考虑 通 配 匹 配 。 

in_pcbbind 也 调用 这 个 国 数 来 验证 本 地 地 址 和 本 地 进程 是 唯一 的 ; in_pcbconnect 
调用 这 个 函数 验证 本 地 地 址 、 本 地 进程 、 外 部 地 址 和 外 部 进程 的 组 合 是 唯一 的 。 

2) in_pcbbind 显 式 或 隐 式 地 把 一 个 本 地 地 址 和 本 地 端口 号 绑 定 到 一 个 揪 口 。 当 进程 调 
用 bind 时 ， 发 生 显 式 绑 定 ; 当 一 个 TCP 客 户 程序 调用 connect 而 不 调用 bind 时 ， 或 当 一 个 
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UDP 进程 调用 sendqato 或 connect 而 不 调用 binq 时 ， 发 生 陷 式 绑 定 。 

3) in_pcbconnect 设 置 外 部 地 址 和 外 部 进程 。 如 果 进 程 还 没有 设置 本 地 地 址 ， 计 算 一 
条 到 外 部 地 址 的 路 由 ， 结 果 的 本 地 接口 成 为 本 地 地 址 。 如 果 进 程 还 没有 设置 本 地 羡 口 ， 
in pcbbind 为 插口 选择 一 个 临时 端口 。 

图 22-37 对 多 种 TCP 和 UDP 应 用 程序 以 及 存放 在 PCB 中 的 本 地 地 址 ， 本 地 端口 、 外 部 地 址 
和 外 部 端口 的 值 做 了 总 结 。 我 们 还 没有 讨论 完 图 22-37 中 TCP 和 UDP 进程 的 所 有 动作 ， 将 在 后 
面 的 章节 中 继续 讨论 。 


TCP 客 户 程 序 : 
connect  (foreignIP, 


fport) 


TCP P fH: bind 


(locallP lport) connect 
(foreignIP.fport) 


TCP€PRJ: 


bind(*, lport) connect 
(foreignIP, fport) 


TCP P''f&lr:bind 


(locallP 0) connect 
(foreignIP, fport) 


TCP 服 务 器 程序 : 


bind(locallP, 
listen()accept() 


lport) 


TCP 服 务 器 程序 : bind 


(*, lport) listen() 
accept() 


UDP 客户 程序 : 


sendto(foreignIP, fport) 


UDP 客户 程序 : 
connect(foreignlIP, 


fport) write() 


in pcbconnect 
iiirtallocJ 
foreignIP ^y MK H. 
本 地 地 址 是 本 地 接口 
localIP 


in pcbconnect 
调用 rtalloc 为 
foreignIP 分 配 路 由 。 
本 地 地 址 是 本 地 接口 


localIP 


IP 首 部 里 的 目的 地 
址 


in pcbconnect 
调用 rtalloc 为 
foreignIP 分 配 路 由 。 
本 地 地 址 是 本 地 接口 。 
在 发 送 完 数据 报 之 后 ， 
置 位 为 0.0.0.0 

in pcbconnect 
WirtallocJ3 
foreignIP 分 配 路 由 。 
本 地 地 址 是 本 地 接 
口 。 后 面 调用 wzite 
时 不 改变 


in pcbconnect 
调用 in_ pcbbind 选 
择 临 时 端口 。 


in pcbbindjikfé 
临时 端口 


lport IP 首 部 内 的 源 
地 址 


in pcbconnect 
调用 in pcbbinaxk 
择 临 时 端口 。 后 面 调 
用 sendto 了 时 不 改变 


in pcbconnect 
Win pcbbinax 
择 临 时 端口 。 后 面 调 
用 write 时 不 改变 


送 完 数据 报 后 ， 
置 位 为 0.0.0.0 


foreignIP 


a 


foreignIP 


TCP 首 部 内 
的 源 端 口 地 址 
foreignIP, È TCP 5 p 
的 源 端 口 地 址 


foreignIP fport。 发 送 
完 数据 报 后 ， 


置 位 为 0 


foreignIP 





图 22-37 in pcbbindfllin pcbconnect 的 总 结 
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在 图 22-23 中 ， 当 进程 请 求 一 个 临时 端口 ， 而 所 有 临时 端口 都 被 使 用 时 ， 会 发 生 什 
么 情况 ? 

在 图 22-10 中 ， 我 们 显示 了 两 个 有 正在 监听 播 口 的 Telnet 服 务 器 : 一 个 具有 特定 本 地 
IP 地 址 ， 另 一 个 的 本 地 了 P 了 地址 是 通 配 地 址 。 你 的 系统 的 Telnet 守 护 程序 允许 你 指定 
本 地 卫 地 址 吗 ? WRF, tE? 

假定 某 个 插口 被 绑 定 到 本 地 播 口 {140.252.1.29,，8888}， 且 这 是 唯一 使 用 本 地 插口 
88888748 L1, (24/8 5 — ^A H 2p 2E $/(140.252.1.29, 8888] BT ,. H Df 
in pcbbindBjBpU UE, [Bog EIE PII, Q0) 248 5 — 7r 8H Spe $8 
配 IP 地 址 ， 端 口 8888 时 ， 执 行 jn_pcbbind 的 所 有 步骤 ,假定 没有 任何 插口 选项 。 
(3) 当 有 另 一 个 播 口 绑 定 到 通 配 IP 地 址 ， 端 口 8888 时 ， 且 设 定 了 播 口 选 项 
SO REUSEADDR, 执行 jn _ pcbbind 的 所 有 步骤 。 

UDP 分 配 的 第 一 个 临时 端口 号 是 什么 ? 

当 进 程 调用 bind 时 ， 必 须 填充 sockaddr_in 结 构 中 的 哪 一 个 元 素 ? 

如 果 进 程 要 bindq 一 个 本 地 广播 地 址 时 ， 会 发 生 什 么 情况 ?如果 进程 要 bindqa 受 限 广 
播 地 址 (255.255.255.255) 时 ， 会 发 生 什 么 情况 ? 


第 23 章 UDP: 用 户 数据 报 协 议 


用 户 数据 报 协议 ， 即 UDP， 是 一 个 面向 数据 报 的 简单 运输 层 协 议 : 进程 的 每 次 输出 操作 
只 产生 一 个 UDP 数据 报 ， 从 而 发 送 一 个 IP 数 据 报 。 

进程 通过 创建 一 个 Internet 域 内 的 SOCK_DGRRAM 类 型 的 插口 ， 来 访问 UDP。 该 类 插口 默认 
地 称 为 无 连接 的 (unconnected)。 每 次 进程 发 送 数据 报时 ， 必 须 指定 目的 IP 地 址 和 端口 号 。 每 
次 从 插口 上 接收 数据 报时 ， 进 程 可 以 从 数据 报 中 收 到 源 IP 地 址 和 端口 号 。 

我 们 在 22.5 市 中 提 到 ，UDP 插 口 也 可 以 被 连接 到 一 个 特殊 的 IP 地 址 和 端口 号 。 这 样 ， 所 有 
写 到 该 插口 上 的 数据 报 都 被 发 往 该 目的 地 ， 而 且 只 有 来 自 该 IP 地 址 和 端口 号 的 数据 报 才 被 传 
给 该 进程 。 

本 章 讨 论 UDP 的 实现 


23.2 代码 介绍 


9 个 UDP 了 负数 在 一 个 C 文 件 中 ，2 个 UDP 定 义 的 头 文件 ， 如 图 23-1 所 示 。 
图 23-2 显 示 了 6 个 主要 的 UDP 函 数 与 其 他 内 核 函数 之 间 的 关系 。 带 阴影 的 椭圆 是 本 章 我 们 
讨论 的 6 个 函数 ， 男 外 还 有 其 他 3 个 函数 是 这 6 个 函数 经 常 调用 的 。 


UE pos o 


netinet/udp.h udphdr 结 构 定 义 
netinet/udp var.h 其 他 UDP 定 义 
netinet/udp usrreq.c UDP FA r 


图 23-1 本 章 中 讨论 的 文件 





sysctl 


系统 初始 化 插口 接收 缓冲 区 多 个 系统 调用 








软件 中 断 
图 23-2 UDP 函 数 与 内 核 其 他 函数 之 间 的 关系 
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23.2.1 全 局 变量 


本 章 引 入 的 全 局 变量 ， 如 图 23-3 所 示 。 


Struct 7 UDP UDPPCB 表 的 表 关 0 | 
Struct inpcb * 指向 最 近 收 到 的 数据 报 的 指针 :“ 向 后 一 个 ”高 速 缓存 


udpcksum Int 用 于 计算 和 验证 UDP 检 验 和 的 标志 位 


udp_in Struct sockaddr in | 在 输入 时 存放 发 送 方 的 IP 地 址 
udpstat Struct udpstat UDP 统计 (图 23-4) 


udp recvspace u long 插口 接收 缓存 的 默认 大 小 ，41 600 字 节 
udp_sendspace u_long 插口 发 送 缓存 的 默认 大 小 ，9 216 字 节 


图 23-3 本 章 中 引入 的 全 局 变量 





23.2.2 统计 量 


全 局 结构 udpstat 维 护 多 种 UDP 统 计量 ， 如 图 23-4 所 示 。 讨 论 代码 的 过 程 中 ， 我 们 会 看 
到 何 时 增加 这 些 计数 器 的 值 。 


udps badlen 收 到 所 有 数据 长 度 大 于 分 组 的 数据 报 个 数 
udps_badsum 收 到 有 检验 和 错误 的 数据 报 个 数 
udps_fullsock 收 到 由 于 输入 插口 已 满 而 没有 提交 的 数据 报 个 数 
udps hdrops 收 到 分 组 小 于 首部 的 数据 报 个 数 


udps ipackets 所 有 收 到 的 数据 报 个 数 

udps noport 收 到 在 目的 端口 没有 进程 的 数据 报 个 数 

udps noportbcast 收 到 在 目的 端口 没有 进程 的 广播 / 多 播 数据 报 个 数 
udps opackets 全 部 输出 数据 报 的 个 数 

udps pcbcachemiss | 收 到 的 丢失 pcb 高 速 缓 存 的 输入 数据 报 个 数 





图 23-4 在 udpstat 结 构 中 维持 的 UDP 统 计 
图 23-5 显 示 了 执行 het stat -s 后 输出 的 统计 信息 。 


18,575,142 datagrams received udps ipackets 
0 with incomplete header udps hdrops 
18 with bad data length field udps. badlen 
58 with bad checksum udps, badsum 
84,079 dropped due to no socket udps. noport 
446 broadcast/multicast datagrams dropped due to no socket | udps, noportbcast 
5,356 dropped due to full socket buffers udps, fullsock 
18,485,185 delivered ( 见 正文 ) 

18,676,277 datagrams output udps. opackets 
































图 23-5 UDP 统计 样本 


提交 的 UDP 数据 报 的 个 数 (输出 的 倒数 第 二 行 ) 是 收 到 的 数据 报 总 数 Cuaps ipackets) 减 
去 图 23-5$ 中 它 前 面 的 6 个 变量 。 
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23.2.3 SNMP 变 量 


图 23-6 显 示 了 UDP 组 中 的 四 个 简单 SNMP 变 量 ， 这 四 个 变量 在 实现 该 变量 的 uapstat 结 


构 中 计数 。 


图 23-7 显 示 了 UDP 监听 器 表 , 称 为 udapTab1le。SNMP 为 这 个 表 返 回 的 值 是 取 目 UDP PCB, 


而 不 是 udpstat 结 构 。 


SNMP 变 量 udpstat 成 员 


描 xh 















udpInDatagrams udps ipackets 收 到 的 所 有 提交 给 进程 的 数据 报 个 数 
udpInErrors udps hdrops + 收 到 的 由 于 某 些 原因 不 可 提交 的 UDP 数据 报 个 数 ， 


udps badsum + 这 些 原 因 中 不 包括 在 目的 端口 没有 应 用 程序 的 原因 ( 例 
udps badlen 如 ，UDP 检 验 和 差错 ) 


udpNoPorts udps noport + 收 到 的 所 有 目的 端口 没有 应 用 进程 的 数据 报 
udps noportbcast 


图 23-6 udp 组 中 的 简单 SNMP 变 量 





UDP 监听 器 表 ， 索 引 =<xdpLocal4ddress>.<MdpLocaLPort> 


| inp laddr 这 个 监听 器 的 本 jbIP 点 听 器 的 本 地 JP 
udpLocalPort inp lport | 这 个 监听 器 的 本 地 端口 号 


图 23-7 UDP 监 听 器 表 : udpTable 





23.3 UDP 的 protosw 结 构 
图 23-8 显 示 了 UDP 的 协议 交换 条 目 


pr type SOCK DGRAM UDP 提供 数据 报 分 组 服务 
pr domain &inetdomain UDP 是 Internet 域 的 一 部 分 
pr protocol IPPROTO UDP(I7) 出 现在 卫 首 部 的 ipP_P 字 段 
pr flags PR ATOMIC|[PR ADDR | 播 口 层 标 志 ， 协 议 处 理 没 有 使 用 
pr input Udp input 从 IP 层 接收 报 文 

pr output 0 UDP 没有 使 用 

pr ctlinput udp ctlinput ICMP 差 错 的 控制 输入 函数 
pr ctloutput| ip ctloutput 响应 来 自 进程 的 管理 请 求 
pr usrreq udp usrreq 响应 来 自 进程 的 通信 请 求 
pr init udp init 初始 化 UDP 

pr fasttimo UDP 没有 使 用 

pr slowtimo UDP 设 有 使 用 

pr drain UDP 没 有 使 用 

pr sysctl udp sysctl XIsysctl (8) 系 统 调用 





图 23-8 UDP 的 protosw 结 构 


本 章 我 们 描述 五 个 以 uap_ 开 头 的 国 数 。 另 外 我 们 还 要 介绍 第 6 个 国 数 uap_output， 
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不 在 协议 交换 条 目 ， 但 当 输 出 一 个 UDP 数 据 报时 ，udp_usrreq 会 调用 它 。 
23.4 UDP 的 首部 


UDP 首 部 定义 成 一 个 udphdr 结 构 。 图 23-9 是 C 结 构 ， 图 23-10 是 UDP 首 部 的 图 。 





udp.h 
39 struct udphdr ( 
40 u short uh, sport; /* source port */ 
41 ü short ub dport /* destination port */ 
42 short uh. ulen; /* udp length */ 
43 u short uh, sum; /* udp checksum */ 
44 ); 
udp.h 
图 23-9 ”udphdr 结 构 
0 15 16 31 
uh, sport uh, dport | 
160r dm Hc 16 位 目的 端口 号 
87r 





uh, ulen uh, sum 
16 位 UDP 长 度 16 位 UDP 检验 和 








数据 (如 果 有 ) 






图 23-10 UDP 首部 和 可 选 数据 


在 源 代 码 中 ,通常 把 UDP 首 部 作为 一 个 紧 跟着 UDP 首部 的 IP 首 部 来 5| 用 。 这 如 是 
udp_input 如 何 处 理 收 到 的 IP 数 据 报 ， 以 及 udp_output 如 何 构 造 外 出 的 IP 数 据 报 。 这 种 联 
合 的 IP/UDP 首 部 是 一 个 udpiphdr 结 构 ， 如 图 23-11 所 示 。 


38 
39 
40 
41 


42 
43 
44 
45 
46 
47 
48 
49 
50 
31 
52 


struct udpiphdr ( 
struct ipovly ui i; 


struct udphdr ui u; 
324 
Kdefine ui. next uri x 
Kdefine ui prev Hr.i. 
Kdefine ui x1 üi i. 
#define ui_pr ui i. 
#define ui len ni T. 
Kdefine ui src "UL X. 
ddefine ui dst ul 1. 
#define ui sport ud Uu. 
Kdefine ui, dport ui u. 
define ui, ulen uil u. 
Kdefine ui sum ni u. 
图 23-11 


udp var.h 


/* overlaid ip structure */ 
/* udp header */ 


1.ih next 


ih prev 
ih x1 
ih, pr 

ih len 
ih src 
ih dst 
uh sport 
uh, dport 
uh ulen 
uh sum 


udp var.h 


udpiphdr 结 构 : 联合 的 IP/UDP 首 部 


20 字 市 的 IP 首 部 定义 成 一 个 jpovly 结 构 ， 如 图 23-12 所 示 。 
不 幸 的 是 ， 这 个 结构 并 不 是 一 个 真正 的 如 图 8-8 所 示 的 IP 首 部 。 大 小 相同 (20 字 节 )， 但 字 
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段 不 同 。 我 们 将 在 23.6 市 讲 UDP 检 验 和 的 计算 时 回来 讨论 这 个 不 同 之 处 。 


ip_var.h 
38 struct ipoviy ( : 
39 caddr t ih next, ih prev; /* for protocol sequence q's */ 
40 u.char ih.x1; /* (unused) */ 
41 u char ih pr: /* protocol *7 
42 short ih, len; . /* protocol length */ 
43 struct in.addr ih.src; /* source internet address */ 
44 strucéet in.addr ih.dst; /* destination internet address */ 
d ip var.h 


23-12. ipovly 结 构 


23.5 udp init 函 数 


domaininit 函 数 在 系统 初始 化 时 调用 UDP 的 初始 化 函数 (udp_init， 图 23-13)。 

这 个 畏 数 所 做 的 唯一 的 工作 是 把 头 部 PCB(udab) 的 同 前 和 回 后 指针 指向 它 自己 。 这 是 一 个 
双向 链表 。 

udb PCB 的 其 他 部 分 都 被 初始 化 成 0， 尽 管 在 这 个 头 部 PCB 中 唯一 使 用 的 字段 是 
inp_1potrt， 它 是 要 分 配 的 下 一 个 UDPI 临 时 端口 号 。 在 解 习题 22.4 时 ， 我 们 提 到 ， 因 为 这 个 
本 地 端口 号 被 初始 化 成 0， 所 以 第 一 个 临时 端口 号 将 是 1024。 


udp usrreq.c 
50 void P- q 
5l udp init() 
52 ( 
53 udb.inp.next - udb.inp prev - &udb; 
54 ) 

udp usrreq.c 


图 23-13 udp init 函 数 


23.6 udp output 函数 


当 应 用 程序 调用 以 下 五 个 写 国 数 中 的 任意 一 个 时 ， 发 生 UDP 输出 。 这 五 个 函数 是 : send, 
sendto、sendmsg、write 或 writev。 如 果 插 口 已 连接 上 的 ， 则 可 任意 调用 这 五 个 函数 ， 
尽管 用 sendto 或 sendmsg 不 能 指定 目的 地 址 。 如 果 插 口 没有 连接 上 ， 则 只 能 调用 sendto 和 
sendmsg， 并 且 必 须 指定 一 个 目的 地 址 。 图 23-14 总 结 了 这 五 个 函数 ， 它 们 在 终止 时 ， 都 调用 
“udp_output, 该 归 数 再 调用 ip output, 

五 个 国 数 终 止 调用 sosenda， 并 把 一 个 指 同 msghdr 结 构 的 指针 作为 参数 传 给 该 函数 。 要 
输出 的 数据 被 分 装 在 一 个 mbuf 链 上 ，sosend 把 一 个 可 选 的 目的 地 址 和 可 选 的 控制 信息 放 到 
mbuf 中 ， 并 发 布 PRU SEND 请 求 。 

UDP 调用 畏 数 uap_output ， 该 图 数 的 第 一 部 分 如 图 23-15 所 示 。 四 个 参数 分 别 是 : inp, 
指 问 插口 Internet PCB 的 指针 ; m， 指 疝 输出 mbuf 链 的 指针 ; addr， 一 个 可 选 指 针 ， 指 向 某 个 
mbuf， 存 放 分 装 在 一 个 sockaddr_in 结 构 中 的 目的 地 址 ，control， 一 个 可 选 指针 ， 指 癌 
一 个 mbuf， 其 中 存放 着 sendmsg 中 的 控制 信息 。 

1. 丢掉 可 选 控制 信息 
333-344 m_freem 丢 弃 可 选 的 控制 信息 ， 不 产生 差错 。UDP 输 出 不 使 用 任何 控制 信息 。 


610 TCP/IP ŽA 32: 实现 


注释 XXX 是 因为 忽略 控制 信息 且 不 产生 错误 。 其 他 协议 如 路 由 选择 域 和 TCP， 当 
进程 传递 控制 信息 时 ， 都 会 产生 一 个 错误 。 


Em C sena D 
系统 调用 CC sendto D CC senàmsg D C write D Cwitev D 


通过 fo_write 


C sosena > 把 数据 、 目 的 地 址 和 控制 
信息 放 到 mbuf 中 


PRU. SEND | 请 求 


udp output 


放 到 接口 的 输出 队列 上 
图 23-14 五 个 写 国 数 如 何 终止 调用 udp_outPput 


2. 临时 连接 一 个 未 连接 上 的 插口 
345-359 如 果 调 用 方 为 UDP 数 据 报 指定 了 目的 地 址 (adar 非 空 )， 则 插口 是 由 
in_pcbconnect 临 时 连接 到 该 目的 地 址 的 ， 并 在 该 国 数 的 最 后 被 断 连 。 在 连接 之 前 ， 要 做 
一 个 检测 ， 判 断 插口 是 否 已 经 连接 上 。 如 果 已 连接 上 ， 则 返回 错误 EBISCONN。 这 就 是 为 什么 
sendto 在 已 连接 上 的 插口 上 指定 目的 地 址 时 ， 会 返回 错误 。 

在 临时 连接 插口 之 前 ，splnet 停 止 IP 的 输入 处 理 。 这 样 做 的 原因 是 因为 ， 临 时 连接 将 改 
变 插口 PCB 中 的 外 部 地 址 、 外 部 端口 以 及 本 地 地 址 。 如 果 在 临时 连接 该 PCB 的 过 程 中 处 理 某 
个 收 到 的 UDP 数据 报 ， 可 能 把 该 数据 报 提交 给 错误 的 进程 。 把 处 理 器 设置 成 比 splnet 优 先 ， 
只 能 阻止 软件 中 断 引 发 执行 了 了 输入 程序 (图 1-12)， 它 不 能 阻止 接口 层 接收 进入 的 分 组 ， 并 把 它 
们 放 到 IP 的 输入 队列 中 。 

[Partridge 和 Pink 1993] 注意 到 临时 连接 插口 的 这 个 操作 开销 很 大 ， 用 去 每 个 
UDP 传送 将 近 三 分 之 一 的 时 间 。 
在 临时 连接 之 前 ，PCB 的 本 地 地 址 被 保存 在 laddr 中 ， 因 为 如 果 它 是 通 配 地 址 ， 它 将 被 
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in pcbconnect 在 调用 in pcbbind 时 改变 。 
如 果 进 程 调用 了 connect:， 则 应 用 于 目的 地 址 的 同一 规则 也 将 适用 ， 因 为 两 种 情况 都 将 


调用 in pcbconnect, 


333 IE 


udp usrreq.c 


334 udp output(inp, m, addr, control) 
335 struct inpcb *inp; 

336 struct mbuf *m; 

337 Btrxnct mbuf *addr, "control; 


338 ( 
339 
340 
341 
342 


343 
344 


345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
397 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
342 
373 


409 
410 
411 
412 } 


struct udpiphdr *ui; 
int len - m-»m pkthdr.len; 
struct in addr laddr; 
int 8, error = 0; 
if (control) 
m freemí(control); ge XXX. "Y 
if (addr) ( 
laddr = inp-»inp ladGár; 
if (inp-»inp faddr.s addr !- INADDR ANY) { 
error - EISCONN; 
goto release; 
) 
/* 
* Must block input while temporarily connected. 
"T 
S - splnet(); 
error - in pcbconnect(inp, addr); 
if (error) ( 
splx(s); 
goto release; 
) 
) else { 
if (inp-»inp. faddr.s. addr == INADDR ANY) ( 
error - ENOTCONN; 
goto release; 
) 
} 
/* 
* Calculate data length and get an mbuf for UDP and IP headers. 
T; 
M PREPEND(m, sizeof (struct udpiphdr), M DONTWAIT); 
if (m == 0) 1 
error - ENOBUFS; 
goto release; 
) 
/* remainder of function shown in Figure 23.20 */ ^  — 5 
release: 
m freem(m); 
return (error); 


udp usrreq.c 


图 23-15 udp outputt&A: 临时 连接 一 个 未 连接 上 的 插口 
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360-364 如 果 进 程 没 有 指定 目的 地 址 ， 并 且 插 口 没有 连接 上 ， 则 返回 ENOTCONN。 

3. 在 前 面 加 上 IP/UDP 首 部 
366-373 M_PREPEND 在 数据 的 前 面 为 了 P 和 UDP 首部 分 配 空间 。 图 1-8 是 一 种 情况 ， 假 定 
mbuf 链 上 的 第 一 个 mbuf 已 经 没有 空间 存放 首部 的 28 个 字 节 。 习 题 23.1 详 细 给 出 了 其 他 情况 。 
需要 指定 标志 位 M_DONTWAIT， 因 为 如 果 插 口 是 临 时 连接 的 ， 则 IP 处 理 被 阻塞 ， 所 以 
M PREPEND 也 应 被 阻塞 。 


早期 的 伯克利 版 本 不 正确 地 指定 了 这 里 的 M_WRIT。 


23.6.1 在 前 面 加 上 IP/UDP 首 部 和 mbuf 簇 


在 M_PREPEND 宏 和 mbuf 徐 之 间 有 一 个 微妙 的 交互 。 如 果 sosend 把 用 户 数 据 放 到 一 个 禾 
中 ， 则 该 徐 的 最 前 面 的 56 个 字 节 (max_hdar， 图 7-17) 没 有 使 用 ， 这 就 为 以 太 网 、IP 和 UDP 首 
部 提供 了 空间 。 避 免 M_PREPEND 仅 仅 为 存放 这 些 首部 而 另外 再 分 配 一 个 mbuf。M_PREPEND 
调用 M_LEADINGSPACE 来 计算 在 mbuf 的 前 面 有 多 大 的 空间 可 以 使 用 : 


#define M LEADINGSPACE (m) ^ 


((m)-»m flags & M EXT ? /* (m)-»m data - (m)-»m ext buf */ 0 : ^ 
(m) ->m flags & M PKTHDR ? (m)-»m data - (m)-»m pktdat : ^ 
(m)-»m data - (m)-»m dat) 


Emai tA UH Bi rr T HH ZR BEANS FCRI ETE EE R Y. WREN, IAE IIO, 
这 意味 着 ， 当 用 户 数据 也 在 某 个 复 中 时 ，M_PREPEND 总 是 为 协议 首部 分 配 一 个 新 的 mbuf， 而 
不 再 使 用 sosend 分 配 的 用 于 存放 首部 的 空间 。 


M_LEADINGSPACE 中 注释 掉 正 确 代码 的 原因 是 因为 该 族 可 能 被 共享 (2.9 节 )， 而 
且 ， 如 果 它 被 共享 ， 使 用 族 中 数据 报 前面 的 空间 可 能 会 擦 掉 其 他 数据 。 

UDP 数 据 不 共享 族 ， 因 为 udp output 不 保存 数据 的 备份 。 但 是 TCP 在 它 的 发 
送 缓存 内 保存 数据 备份 (等 待 对 该 数据 的 确认 )， 而且 如 果 数 据 不 在 族 内 ， 则 说 明 它 是 
共享 的 。 但 tcp output 不 调用 M LEADINGSPACE， 因 为 sosend 只 为 数据 报 协 议 
£&AT4G 9465643 0, "YU, tcp _ output 总 是 调用 MGETHDR 为 协议 首部 分 配 一 个 
mbuf, 


23.6.2 UDP 检验 和 计算 和 伪 首 部 


在 讨论 udp_output 的 后 一 部 分 之 前 ， 我 们 描述 一 下 UDP 如 何 填 充 IP/UDP 首 部 的 某 些 字 
段 ， 如 何 计算 UDP 检验 和 ， 以 及 如 何 传递 IJP/UDP 首 部 及 数据 给 IP 输 出 的 。 这 些 工 作 很 巧妙 地 
使 用 了 ipovly 结 构 。 

图 23-16 显 示 了 udp_output 在 由 m 指 向 的 mbuf 链 的 第 一 个 存储 器 上 构造 的 28 字 节 IP/UDP 
首部 。 没 有 阴影 的 字段 是 udp_output 填 充 的 ， 有 阴影 的 字段 是 ijp_output 填 充 的 。 这 个 图 
显示 了 首部 在 线路 上 的 格式 。 

UDP 检验 和 的 计算 覆盖 了 三 个 区 域 : (1) 一 个 12 字 市 的 伪 首 部 ， 其 中 包含 IP 首 部 的 字段 ，; 
(2)8 字 节 UDP 首 部 ，(3)UDP 数 据 。 图 23-17 显 示 了 用 于 检验 和 计算 的 12 字 市 伪 首 部 ， 以 及 UDP 
首部 。 用 于 计算 检验 和 的 UDP 首部 等 价 于 出 现在 线路 上 的 UDP 首部 (图 23-16)。 
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图 23-16 IP/UDPH NB: UDP 填充 没有 阴影 的 字段 ，IP 填 充 有 阴影 的 字段 
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图 23-17 检验 和 计算 所 使 用 的 伪 首 部 和 UDP 首部 


在 计算 UDP 检验 和 时 使 用 以 下 三 个 事实 : (1) 在 伪 首 部 (图 23-17) 中 的 第 三 个 32 bit 字 看 起 来 


与 IP 首 部 (图 23-16) 中 的 第 三 个 32 bit 字 类 似 : 两 个 8 bit 值 和 一 个 16 bit 值 。(2) 伪 首部 中 三 个 32 
bit 值 的 顺序 是 无 关 的 。 FKE, Internet 检 验 和 的 计算 不 依赖 于 所 使 用 的 16 bit 值 的 顺序 (8.7 市 )。 


(3) 在 检验 和 计算 中 另外 再 加 上 一 个 全 0 的 32 bit 字 没有 任何 影响 。 
udp_output 利 用 这 三 个 事实 ， 填充 udpiphdr 结 构 ( 图 23-11) 的 字段 ， 如 图 23-18 所 示 。 


个 32 bit 字 被 用 作 检验 和 计算 的 伪 首 部 。 


结构 包含 在 由 m 指 向 的 mbuf 链 的 第 一 个 mbuf 中 。 


在 20 字 节 IP 首 部 (5 个 成 员 ; ui x1, ui pr, ui len, ui src 和 ui dst) 中 的 最 后 三 


在 检验 和 计算 中 ， 但 它们 被 初始 化 成 0， 所 以 不 影响 最 后 的 检验 和 。 


图 23-19 总 结 了 我 们 描述 的 操作 : 
1) 图 23-19 中 最 上 面 的 图 是 伪 首 部 的 协议 定义 ， 与 图 23-17 对 应 。 


IP 首 部 的 前 两 个 32 bit 字 (ui next 和 ui prev) 也 用 
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0 15 16 31 
mA 
RI 
ui x ui. pr ui len 
8 位 生存 时 间 8 位 协议 16 位 首部 检验 和 
ui src 
324r URIP HE AE 
ui. dst 
32 位 目的 下 地 址 
ul, sport ui. dport 
16 位 源 端 口号 16 位 目的 端口 号 
ui ulen ui. sum 
16 位 UDP 长 度 16 位 UDP 检验 和 


图 23-18 udp _output 填 充 的 udpiphdr 








* 
di 





| 伪 首 部 | UDP 首部 | 






UDP 目的 | UDP | UDP poten 
多 个 0 不 影响 相同 的 字段 相同 的 字段 
| 检验 和 计算 | 不 同 的 顺序 x 相同 的 顺序 。 — 
UDP 源 IP 目的 IP 源 端口 目的 | UDP | UDP | 用 于 检验 和 
长 度 地 址 地 址 端口 KE 计算 的 结构 
next prev x1 i len src dst sport dport ulen 


: 上 1 + 1 

IP kA 目的 IP pa UDP | UDP 
TEEI ETE EEE 
IE 


图 23-19 填充 IP/UDP 首 部 和 计算 UDP 检 验 和 的 操作 


2) 中 间 的 图 是 源 代码 使 用 的 udpiphdr 结 构 ， 与 图 23-11 对 应 (为 图 的 可 读 性 ， 省 略 了 所 有 
成 员 的 前 级 ui )。 这 是 udp_output 在 mbuf 链 上 的 第 一 个 mbuf 中 构造 的 结构 ， 然 后 被 用 于 计 
算 UDP 检 验 和 。 

3) 下 面 的 图 是 出 现在 线路 上 的 IP/UDP 首 部 ， 与 图 23-16 对 应 。 上 面 有 箭头 的 7 个 字段 是 
udp_output 在 检验 和 计算 之 前 填充 的 。 上 面 有 星 号 的 3 个 字段 是 udp_output 在 检验 和 计 
算 之 后 填充 的 。 其 他 6 个 有 阴影 的 字段 是 ip_output 填 充 的 。 

图 23-20 是 udp_output 函数 的 后 半 部 分 。 

1. 为 检验 和 计算 准备 伪 首 部 
374-387 把 udpiphdr 结 构 ( 图 23-18) 的 所 有 成 员 设置 成 它们 相应 的 值 。PCB 中 的 本 地 和 外 
部 插口 已 经 是 网 络 字 节 序 ， 但 必须 把 UDP 的 长 度 转换 成 网 络 字 节 序 。UDP 的 长 度 是 数据 报 的 






线路 上 的 首部 
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字 节 数 (len， 可 以 是 0) 加 上 UDP 首部 的 大 小 (8)。UDP 长 度 字段 在 UDP 检验 和 计算 中 出 现 了 
两 次 : ui _len 和 ui ulen。 有 一 个 是 见 余 的 。 


udp_usrreq.c 
375 * Fill in mbuf with extended UDP header 
376 * and addresses and length put into network format. 
373 uii 
378 ui - mtod(m, struct udpiphdr *); 
379 ui-»ui next = ui->ui prev = 0; 
380 ui-»ui x1 = 0; 
381 ul-»ui pr - IPPROTO UDP; 
382 ui-»ui len = htons((u short) len + sizeof(struct udphdr)); 
383 ui-»ui src = inp-»inp laddr; 
384 ui-»ui. dst - inp-»inp faddr; 
385 ui-»ui. sport = inp-»inp lport; 
386 ui-»ui. dport = inp-»inp fport; 
387 ui-»ui ulen - ui-»ui len; 
388 p" 
389 * Stuff checksum and output datagram. 
390 * y 
391 ui-»ui sum - 0; 
392 if (udpcksum) ( 
393 if ((ui-»ui sum = in cksum(m, sizeof(struct udpiphdr) + len)) == 0) 
394 ui-»ui sum = Oxffff; : 
395 ) 
396 ( (struct ip *) ui)-»ip len = sizeof(struct udpiphdr) + len; 
397 ((struct ip *) uil-»ip.ttl = inp-»inp.ip.lp ttl; /* XXX */ 
398 ((struct ip *) ul)-5»ip.tos = inp-»inp lp.ip tos; /* XXX */ 
399 udpstat.udps. opackets-«-«; 
400 error = ip output(m, inp-»inp options, &inp-»inp route, 
401 í inp-»inp  socket-»so options & (SO DONTROUTE | SO BROADCAST), 
402 inp-»inp moptions); 
403 if (addr) ( 
404 in pcbdisconnect (inp); 
405 inp-»inp laddr = laddr; 
406 splxís); 
407 ) 
408 return (error); 
udp usrreq.c 
图 23-20 udp _output Kk: 填充 首部 、 计 算 检 验 和 并 传 给 IP 
2. 计算 检验 和 


388-395 计算 检验 和 时 ， 首 先 把 它 设 成 0， 然 后 调用 in_cksum。 如 果 UDP 检 验 和 是 禁止 的 
(一 个 坏 的 想法 一 一 见 卷 1 的 11.3 市 )， 则 检验 和 的 结果 是 0。 如 果 计 算 的 检验 和 是 0， 则 在 首部 
中 保存 16 个 1， 而 不 是 0( 在 求 补 运算 中 ， 全 1 和 全 0 都 是 0)。 这 样 ， 接 收 方 就 可 以 区 分 没有 检验 
和 的 UDP 分 组 (检验 和 字段 为 0) 和 有 检验 和 的 UDP 分 组 了 ， 后 者 的 检验 和 值 为 0(16 位 的 检验 和 
是 16 个 1)。 
变量 udpcksum( 图 23-3) 通 常 默认 值 为 1， 使 能 UDP 检 验 和 。 对 内 核 的 编译 可 对 
4.)BSDX &, J£udpcksumn45 45 730, 


3. 填充 UDP 长 度 、TTL 和 TOS 


396-398 指针 ui 指向 一 个 指向 某 个 标准 IP 首 部 的 指针 (ip)，UDP 设 置 IP 首 部 内 的 三 个 字段 。 
IP 长 度 字 段 等 于 UDP 数据 报 中 数据 的 个 数 加 上 IP/UDP 首 部 大 小 28。 注 意 ，IP 首 部 的 这 个 字段 
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以 主机 字 市 序 保存 ， 不 像 首部 其 他 多 字 市 字段 ， 是 以 网 络 字 节 序 保存 的 。ip_output 在 发 送 
之 前 ， 把 它 转换 成 网 络 字 市 序 。 

把 IP 首 部 里 的 TTL 和 TOS 字 段 的 值 设 成 插口 PCB 中 的 值 。 在 创建 插口 时 ，UDP 设 置 这 些 默 
认 值 ， 进 程 可 用 setsockopt 改 变 它 们 。 因 为 这 三 个 字段 IP E. TTLATUITOS 不 是 
伪 首 部 的 内 容 ，UDP 检 验 和 计算 时 也 没有 用 到 它们 ， 所 以 ， 在 计算 检验 和 之 后 ， 调 用 
ip_output 之 前 ， 必 须 设 置 它们 。 

4. 发 送 数据 报 
400-402 ip output 发 送 数据 报 。 第 二 个 参数 inp_ options， 是 进程 可 用 setsockopt 
设置 的 IP 选 项 。 这 些 IP 选 项 是 ijp_output 放 置 到 IP 首 部 中 的 。 第 三 个 参数 是 一 个 指向 高 速 组 
存在 PCB 中 的 路 由 的 指针 ， 第 四 个 参数 是 插口 选项 。 传 给 ijp_output 的 唯一 插口 选项 是 
SO_DONTROUTE( 旁 路 选 路 表 ) 和 SO_BROADCAST( 人 允许 广播 )。 最 后 一 个 参数 是 一 个 指向 该 插 
口 的 多 播 选 项 的 指针 。 

S. Hr E PEE BEP] d A 
403-407 如果 捅 口 是 临 时 连接 上 的 ， 则 in_ pcbdaisconnect 断 连 揪 口 ， 本 地 IP 地 址 在 
PCB 中 恢复 ,恢复 中 断 级 别 到 保存 的 值 。 


23.7 udp :input 函数 








进程 调用 五 个 写 国 数 之 一 来 驱动 UDP 输出 。 图 23-14 显 示 的 函数 都 作为 系统 调用 的 组 成 部 
分 被 直接 调用 。 男 一 方面 ， 当 IP 在 它 的 协议 字段 指定 为 UDP 的 输入 队列 上 收 到 一 个 IP 数 据 报 
时 ， 才 发 生 UDP 的 输入 。IP 通 过 协议 交换 表 ( 图 8-15) 中 的 pr_input 了 函数 调 用 函数 
udp_input。 因 为 IP 的 输入 是 在 软件 中 断 级 ， 所 以 udp_input 也 在 这 一 级 上 执行 。 
udp_input 的 目标 是 把 UDP 数 据 报 放 置 到 合适 的 插口 的 缓存 内 ， 唤 醒 该 插口 上 因 输 入 阻塞 的 
所 有 进程 。 

我 们 对 udp_input 函数 的 讨论 分 三 个 部 分 。 

1) UDP 对 收 到 的 数据 报 完成 一 般 性 的 确认 ， 

2) 处 理 目的 地 是 单 播 地 址 的 UDP 数据 报 : 找到 合适 的 PCB， 把 数据 报 放 到 插口 的 缓存 内 ， 

3) 处 理 目 的 地 是 广播 或 多 播 地 址 的 UDP 数据 报 : 必须 把 数据 报 提交 给 多 个 插口 。 

最 后 一 步 是 新 的 ， 是 为 了 在 Net/3 中 支持 多 播 ， 但 占用 了 大 约 三 分 之 一 的 代码 。 


23.7.1 对 收 到 的 UDP 数 据 报 的 一 般 确 认 


图 23-21 是 UDP 输 入 的 第 一 部 分 。 
55-65 udp_input 的 两 个 参数 是 : m， 一 个 指向 包含 了 该 IP 数 据 报 的 mbuf 链 的 指针 ， 
iphlen，IP 首 部 的 长 度 ( 包 括 可 能 的 IP 选 项 )。 

1. ERIP HM 
67-76 如 末 有 IP 选 项 ， 则 ip_stripoptions 丢 弃 它 们 。 正 如 注释 中 表明 的 ，UDP 应 该 保 
存 IP 选 项 的 一 个 备份 ， 使 接收 进程 可 以 通过 IP_RECVOPTS 插 口 选 项 访问 到 它们 ， 但 这 个 还 没 
有 实现 。 l 
77-88 如果 mbuf 链 上 的 第 一 个 mbuf 小 于 28 字 六 (IP 首 部 加 上 UDP 首 部 的 大 小 )， 则 
m_pullup 重 新 安排 mbuf 链 ,使 至 少 有 28 个 字 市 连续 地 存放 在 第 一 个 mbuf 中 。 
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void 

udp_input (m, iphlen) 

struct mbuf *m; 

int iphlen; 

( 
struct ip TID: 
struct udphdr *uh; 
struct inpcb *inp; 
struct mbuf *opts = 0; 
int len; 
struct ip save ip; 


udpstat.udps ipackets-«-; 


/* 
* Strip IP options, if any; should skip this, 
* make available to user, and use on returned packets, 
* but we don't yet have a way to check the checksum 
* with options still present. 
"f 
if (iphlen > sizeof (struct ip)) ( 
ip stripoptions(m, (struct mbuf *) 0); 
iphlen - sizeof(struct ip); 
) 
/* 
* Get IP and UDP header together in first mbuf. 
* / ó 
ip = mtod(m, struct ip *); 
if (m-»m len < iphlen + sizeof(struct udphdr)) { 
if ((m = m pullup(m, iphlen + sizeof (struct udphdàdr))) 
udpstat.udps hdrops--; 
return; 


1D = mtod(n, struct 1p *); 


uh = (struct udphdr *) ((caddr t) ip + iphlen); 


/* 
* Make mbuf data length reflect UDP length. 
* If not enough data to reflect UDP length, drop. 
a 
len - ntohs((u short) uh-»uh ulen); 
if (ip-»ip len is len) ( i 
if (len > ip->ip_len) { 
udpstat .udps_badlen+it+; 
goto bad; 
} 
m adj(m, len - ip-»ip len); 
/* ip-»ip len - len; */ 
) 
J* 
* Save a copy of the IP header in case we want to restore 
* it for sending an ICMP error message in response. 


a i 

save ip = *ip; 

/* 
* Checksum extended UDP header and data. 
* y 


if (udpcksum && uh-»uh, sum) { 


图 23-21 udp inputrAZk: 对 收 到 的 UDP 数据 报 的 一 般 确认 


udp usrreq.c 
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114 ((struct ipovly *) ip)-»ih next = 0; 
112 ((struct ipovly *) ip)-»5ih prev = O0; 
113 ((struct ipovly *) ip)-»ih.x1 = 0; 
114 ((struct ipovly *) ip)-»ih len - uh-»uh ulen; 
115 if (uh-»uh sum = in cksum(m, len + sizeof(struct ip))) ( 
116 udpstat.udps. badsum-*-; 
Eid m freem(m); 
118 return; 
119 ) 
120 ) 
udp usrreq.c 
[23-21 (£x) 
2. 验证 UDP 长 度 


333-344 与 UDP 数据 报 相 关 的 两 个 长 度 是 : IP 首 部 的 长 度 字段 (ijp_len) 和 UDP 首 部 的 长 度 
字段 (uh_ulen)。 前 面 讲 到 ，ipintr 在 调用 udp_input 之 前 ， 从 ip_len 中 抽取 出 IP 首 部 
的 长 度 (图 10-11)。 比 较 这 两 个 长 度 ， 可 能 有 三 种 可 能 性 : 

1) ip_len 等 于 uh _ulen。 这 是 通 弟 情况 。 

2) ip_len 大 于 uh_ulen。IP 首 部 太 大 ， 如 图 23-22 所 示 。 代 码 相 信 两 个 长 度 中 小 的 那个 
(UDP 首 部 长 度 )，m_adj 从 数据 报 的 最 后 移 走 多 余 的 数据 字 节 。m_adj 的 第 二 个 参数 是 负数 ， 
在 图 2-20 中 我 们 说 ， 从 mbuf 链 的 最 后 截断 数据 。 在 这 种 情况 下 ，UDP 的 长 度 字段 出 现 冲 突 。 
如 果 是 这 样 ， 假 定 发 送 方 计算 了 UDP 的 检验 和 ， 则 不 和 久 检 验 和 会 检测 到 这 个 错误 ， 接 收 方 也 
会 验证 检验 和 ， 从 而 丢弃 该 数据 报 。IP 长 度 字 段 必须 正确 ， 因 为 IP 根 据 接口 上 收 到 的 数据 量 
仿 证 它 ， 而 强制 的 IP 首 部 检验 和 禾 盖 了 IP 首 部 的 长 度 字段 。 


P — Pii e 


E 


| | UDP 长 度 uh_ ulen | | 
IP 长 度 ip_len 加 上 IP 首 部 长 度 


图 23-22 UDP 长 度 太 小 


3) ip_len 小 于 uh_ulen。 当 UDP 首部 的 长 度 给 定时 ， 了 PP 数据 报 比 可 能 的 小 。 图 23-23 显 
示 了 这 种 情况 。 这 说 明 数 据 报 有 错误 ， 必 须 丢 奔 ， 没 有 其 他 的 选择 : 如 采 UDP 长 度 字段 被 破 
坏 ， 用 UDP 检验 和 是 无 法 检测 到 的 。 需 要 用 正确 的 UDP 长 度 来 计算 UDP 检验 和 。 


-一 IP 数 据 报 -一 一 一 一 一 一 一 
an D 
N 


IP 长 度 ip_len 加 上 IP 首 部 长 度 


图 23-23 UDP 长 度 太 大 


正如 我 们 提 到 的 ，UDP 长 度 是 宛 余 的 。 在 第 28 章 中 我 们 将 看 到 ，TCP 自 己 的 首部 
内 没有 长 度 字 段 € 用 IP 长 度 字 段 减 去 IP 和 TCP 首 部 的 长 度 ， 以 此 确定 数据 报 内 数 
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据 的 数量 。 为 什么 存在 UDP 长 度 字 段 呢 ? 可 能 是 为 了 加 上 少量 的 差 锚 检 测 ， 因 为 
UDP 检验 和 是 可 选 的 。 
3. 保存 下 首部 的 备份 ， 验 证 UDP 检验 和 
102-106 udp_input 在 验证 检验 和 之 前 保存 IP 首 部 的 备份 ， 因 为 检验 和 计算 会 擦 去 原始 IP 
首部 的 一 些 字段 。 | 
110 只 有 当 的 UDP 检验 和 (udpcksum) 是 内 核 允许 的 ， 并 且 发 送 方 也 计算 了 UDP 检验 和 ( 收 到 
的 检验 和 不 为 0) 时 ， 才 验证 检验 和 。 
这 个 检测 是 不 正确 的 。 如 果 发 送 方 计算 了 一 个 检验 和 ， 就 应 该 验证 它 ， 不 管 外 
出 的 检验 和 是 否 被 计算 。 变 量 udpcksum 应 该 只 指定 是 否 计 算 外 出 的 检验 和 。 不 幸 
的 是 ， 许 多 厂商 都 复制 了 这 个 检测 ， 尽 管 厂商 已 经 改变 它们 产品 的 内 核 ， 却 默认 地 
允许 UDP 检验 和 。 
111-120 ”在 计算 检验 和 之 前 ，IP 首 部 作为 ipovly 结 构 (图 23-18) 引 用 ， 所 有 字段 的 初始 化 
都 是 udp_output 在 计算 UDP 检验 和 (上 一 节 ) 时 初始 化 的 。 
此 时 ， 如 果 数据 报 的 目的 地 是 一 个 广播 或 多 播 IP 地 址 ， 将 执行 特别 的 代码 。 我 们 把 这 自 
代码 推迟 到 本 节 最 后 。 


23.7.2 分 用 单 播 数据 报 
假定 数据 报 的 目的 地 是 一 个 单 播 地 址 ， 图 23-24 显 示 了 执行 的 代码 。 


udp usrreq.c 


/* demultiplex broadcast & multicast datagrams (Figure 23.26) */ 


206 p> 

207 * Locate pcb for unicast datagram. 

208 Fi 

209 inp - udp last inpcb; 

210 if (inp-»inp lport !- uh-»uh dport || 

EI inp-»inp fport !- uh-»uh sport || 

212 inp-»inp faddr.s addr !- ip-»ip src.s addr || 

213 inp-»inp laddr.s addr !- ip-»ip dst.s addr) ( 

214 inp - in pcblookup(&udb, ip-»ip src, uh-»uh sport, 
215 ip-»ip dst, uh-»uh dport, INPLOOKUP WILDCARD); 
216 if (inp) 

Z1 udp last inpcb - inp; 

218 udpstat.udpps pcbcachemiss--; 

219 ) 

220 if (inp == O0) ( 

221 udpstat .udps_noport++; 

222 if (m-»m flags & (M BCAST | M MCAST)) { 

223 udpstat.udps. noportbcast-«-; 

224 goto bad; 

225 ) 

226 *ip - save ip; 

227 ip-»ip len += iphlen; 

228 icmp error(m, ICMP UNREACH, ICMP UNREACH PORT, 0, 0); 
229 return; 

230 ) 


udp usrreq.c 


图 23-24 udp_input Á: 分 用 单 播 数 据 报 
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1. 检查 “ 问 后 一 个 ”高 速 缓存 
206-209 UDP 维护 一 个 指针 ， 该 指针 指 问 最 后 在 其 上 接收 数据 报 的 Internet PCB, 
udp last inpcb, 在 调用 in _ pcblookup 之 前 ， 可 能 必须 搜索 UDP 表 上 的 PCB， 把 最 近 
一 次 接收 PCB 的 外 部 和 本 地 地 址 以 及 端口 号 和 收 到 数据 报 的 进行 比较 。 这 称 为 “ 同 后 一 个 ” 
高 速 缓 存 (one-behind cache)[Partridge 和 Pink 1993]。 它 是 根据 这 样 一 个 假设 ， 即 收 到 的 数据 报 
极 有 可 能 要 发 往 上 一 个 数据 报 发 往 的 同一 端口 [Mogul 1991]。 这 个 高 速 缓 存 技术 是 在 4.3BSD 
Tahoe 版 本 中 引入 的 。 
210-213 高速 缓存 的 PCB 和 收 到 数据 报 之 间 的 四 个 比较 的 次 序 是 故意 安排 的 。 如 果 PCB 不 
匹配 ， 则 应 尽快 结束 比较 。 最 大 的 可 能 性 是 目的 端口 号 不 相同 一 一 这 就 是 为 什么 第 一 个 检 
测 它 。 不 匹配 的 可 能 性 最 小 的 是 本 地 地 址 ， 尤 其 在 只 有 一 个 接口 的 主机 ， 所 以 它 是 最 后 一 
^P s M 

不 幸 的 是 ， 这 种 “向 后 一 个 ”高 速 缓存 技术 代码 ， 在 实际 中 营 无 用 处 [Partridge 和 Pink 
1993]。 最 普通 的 UDP 服务 器 类 型 只 绑 定 它 的 知名 端口 ， 它 的 本 地 地 址 、 外 部 地 址 和 外 部 闪 口 
都 是 通 配 地 址 。 最 普通 的 UDP 客户 程序 类 型 并 不 连接 它 的 UDP 插口 ， 它 用 sendto 指 定 每 个 
数据 报 的 目的 地 址 。 因 此 ， 大 多 数 时 间 PCB 内 的 ijnp_laddr、inp_faddr 和 inp_fport 都 
是 通 配 的 。 在 高 速 缓存 的 比较 中 ， 收 到 数据 报 的 这 四 个 值 永 远 都 不 是 通 配 的 ， 这 意味 着 只 有 
当 指 定 PCB 的 四 个 本 地 和 外 部 值 是 非 通 配 时 ， 高 速 缓存 条 目 与 收 到 数据 报 的 比较 才 可 能 相等 。 
这 种 情况 只 在 连接 上 的 UDP 插口 上 发 生 。 

在 系统 bsdi 上 ，udpps pcbcachemiss 计 数 器 是 41 253, udps ipackets 
计数 器 是 42 485, ip E396 缓存 命中 率 。 
netstat -ss 命令 打印 出 udapstat 结 构 (图 23-5) 的 大 多 数字 段 。 不 幸 的 是 ， 

Net3 版 本 ， 以 及 多 数 厂家 的 版 本 都 不 打印 udpps_pcbcachemiss。 如 果 你 想 看 它 

们 的 值 ， 用 调试 器 检查 在 运行 的 内 核 中 的 变量 。 

2. 搜索 所 有 UDP 的 PCB 
214-218 假定 与 高 速 缓存 的 比较 失败 ， 则 in_pcblookup 寻 找 一 个 匹配 。 指 定 
INPLOOKUP_WILDCARD 标 志 ， 人 允许 通 配 匹 配 。 如 果 找 到 一 个 匹配 ， 则 把 指向 该 PCB 的 指针 
保存 在 udp_last_inpcb 中 ,我 们 说 它 高 速 缓 存 了 最 后 收 到 的 UDP 数 据 报 的 PCB。 

3. 生成 ICMP 端 口 不 可 达 差 错 
220-230 如果 没 找到 匹配 的 PCB，UDP 通 稍 产 生 一 个 ICMP 病 口 不 可 达 差 错 。 首 先 检 测 收 
到 的 mbuf 链 的 m_flags， 看 看 该 数据 报 是 否 是 要 发 送 到 一 个 链 路 级 广播 或 多 播 地 址 。 有 可 能 
会 收 到 一 个 发 送 到 链 路 级 广播 或 多 播 地 址 的 IP 数 据 报 ， 具 有 单 播 地 址 ， 此 时 不 应 该 产生 ICMP 
端口 不 可 达 差 错 。 如 果 成 功 产 生 ICMP 差 错 ， 则 把 卫 首 部 恢复 成 收 到 它 时 的 值 (save_ip)， 也 
把 IP 长 度 设置 成 它 原 来 的 值 。 


链 路 级 广播 或 多 播 地 址 的 检测 是 宛 余 的 。icmp_ error4 fix 4-43], ix 4 AC 
余 检 测 的 唯一 好 处 是 ， 在 udps noportbcast 计 数 器 之 外 ， 还 维护 了 
udps _noport 计 数 器 。 

把 iphlen 改 回 jp _ len 是 一 个 错误 。icmp error 也 会 做 这 项 工作 ， 使 得 
ICMP 差 错 返 回 的 IP 首 部 的 IP 长 度 字 段 是 20 字 节 ,， 这 太 大 了 。 可 以 在 Traceroute 程 
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A(R X9 83E) P Jo EJUITSEEER, ERAEN AEE, rép h ICMP RT 
达 差 错 报 文 中 的 这 个 字段 ， 可 以 测试 系统 是 否 有 这 个 错误 。 


图 23-25 是 处 理 单 播 数 据 报 的 代码 ， 把 数据 报 提交 给 与 目的 PCB 对 应 的 插口 。 


M em udp usrreq.c 
232 * Construct sockaddr format source address. 
233 * Stuff source address and datagram in user buffer. 
234 a 
235 udp in.sin port - uh-»uh sport; 
236 udp in.sin addr - ip-»ip src; 
237 if (inp-»inp flags & INP CONTROLOPTS) ( 
238 struct mbuf **mp - &opts; 
239 if (inp-»inp flags & INP RECVDSTADDR) { 
240 *mp - udp saveopt((caddr t) & ip-»ip dst, 
241 sizeof (struct in_addr), IP RECVDSTADDR); 
242 lf (*inp) 
243 mp - &(*mp)-»m next; 
244 ) 
245 #ifdef notyet 
246 /* IP options were tossed above */ 
247 if (inp-»inp flags & INP RECVOPTS) ( 
248 *mp - udp saveopt((caddr t) opts deleted above, 
249 sizeof (struct in_addr), IP RECVOPTS); 
250 if (*mp) 
251 mp - &(*mp)-»m next; 
252 ) 
253 /* ip srcroute doesn't do what we want here, need to fix */ 
254 if (inp-»inp flags & INP RECVRETOPTS) ( 
255 *mp - udp saveopt((caddr t) ip srcroute(), 
256 sizeof(struct in addr), IP RECVRETOPTS); 
a5] if (*mp) 
258 mp - &(*mp)-»m next; 
259 ) 
260 #endif 
261 ) 
262 iphlen «- sizeof(struct udphdr); 
263 m-»m len -- iphlen; 
264 m-»m pkthdr.len -- iphlen; 
265 m-»m data += iphlen; 
266 if (sbappendaddr(&inp-»inp socket-»so rcv, (struct sockaddr *) &udp in, 
267 m, opts) == 0) 4 
268 udpstat.udps fullsock-«-; 
269 goto bad; 
270 ) 
271 sorwakeup(inp-»inp socket); 
212 return; 
273 bad: 
274 m freem(m); 
275 if (opts) 
276 m freem(opts); 
2723 ) 
udp usrreq.c 


图 23-25 udp inputrAZk: 把 单 播 数 据 报 提交 给 插口 


4. 返回 源 站 IP 地 址 和 源 站 端口 
231-236 收 到 的 IP 数 据 报 的 源 站 IP 地 址 和 源 站 端口 被 保存 在 全 局 sockaddr_in 结 构 中 的 
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udp_in。 在 函数 的 后 面 ， 该 结构 作为 参数 传 给 了 sbappendaddr。 

采用 全 局 变量 保存 IP 地 址 和 端口 号 不 出 现 回 题 的 原因 是 ，udp_input 是 单线 程 的 。 当 
ipintr 调 用 它 时 ， 它 在 返回 之 前 完整 地 处 理 了 收 到 的 数据 报 。 而 且 ，sbappendaddr 还 把 
该 插口 结构 从 全 局 变量 复制 一 个 mbuf 中 。 

5. IP RECVDSTADDR 插 口 选 项 
337-244 常数 INP_CONTROLOPTS 是 三 个 插口 选项 的 结合 ， 进 程 可 以 设置 这 三 个 插口 选项 ， 
通过 系统 调用 recvmsg 返 回 插口 的 控制 信息 (图 22-5)。IP_RECVDSTADDR 把 收 到 的 UDP 数 
据 报 中 的 目的 了 了 地 址 作为 控制 信息 返回 。 图 数 udap_saveopt 分 配 一 个 MT_CONTROL 类 型 的 
mbuf， 并 把 4 字 贡 的 目的 卫 地 址 存放 在 该 缓存 中 。 我 们 在 23.8 贡 中 介绍 这 个 国 数 。 


该 插口 选项 与 4.3BSD Reno 一 起 出 现 ， 是 为 一 般 文 件 传输 协议 TFTP 的 应 用 程序 
设计 的 ， 它 们 不 响应 发 给 广播 地 址 的 客户 程序 请 求 。 不 幸 的 是 ， 即 使 接收 应 用 程序 
使 用 这 个 选项 ， 也 很 难 确定 目的 IP 地 址 是 否 是 一 个 广播 地 址 (习题 23.6)， 

当 4.4BSD 中 加 上 了 多 播 功 能 后 ， 这 个 代码 只 对 目的 地 是 单 播 地 址 的 数据 报 有 效 。 

我 们 将 在 图 23-26 看 到 ， 对 发 给 多 播 地 址 的 广播 数据 报 还 没有 实现 这 个 选项 ,根本 无 

法 达到 该 选项 的 目的 。 

6. 未 实现 的 插口 选项 
245-260 这 上段 代码 被 注释 掉 了 ， 因 为 它们 不 起 作用 。IP_RECVOPTS 插 口 选项 的 原意 是 把 
收 到 数据 报 的 IP 选 项 作为 控制 信息 返回 ， 而 IP_RECVRETOPTS 插 口 选项 返回 源 路 由 人 信息。 三 
个 IP_RECV 插 口 选 项 对 mp 变量 的 操作 构造 了 一 个 最 多 有 三 个 mbuf 的 链表 ， 该 链表 由 
sbappendaddr 放 置 到 插口 的 缓存 。 图 23-25 显 示 的 代码 只 把 一 个 选项 作为 控制 信息 返回 ， 
所 以 指向 该 mbuf 的 m_next 总 是 一 个 空 指针 。 

7. 把 数据 加 到 插口 的 接收 队列 中 
262-272 此 时 ,已 经 准备 好 把 收 到 的 数据 报 (m 指 疝 的 mbuf 链 ) 以 及 一 个 表示 发 送 方 IP 地 址 和 
颖 口 的 插口 地 址 结构 (udp_in) 和 一 些 可 选 的 控制 信息 (opts 指 同 的 mbuf， 目 的 IP 地 址 ) 放 到 插 
口 的 接收 队列 中 。 这 个 工作 由 sbappendaaddar 完 成 。 但 在 调用 这 个 国 数 之 前 ， 要 修正 指针 和 
缓存 链 上 的 第 一 个 mbuf， 忽 略 掉 UDP 和 了 IP 首 部 。 返 回 之 前 ， 调 用 sorwakeup 唤 醒 揪 口 接收 队 
列 中 的 所 有 睡眠 进程 。 | 

8. 返回 差错 
273-276 如果 在 UDP 输入 处 理 的 过 程 中 遇 到 错误 ，udp_input 会 跳 转 到 badq 标 号 语句 ， 
释放 所 有 包含 该 数据 报 以 及 控制 信息 (如 果 有 的 话 ) 的 mbuf 链 。 


23.7.3 分 用 多 播 和 广播 数据 报 


现在 返回 到 udp_input 处 理发 给 广播 或 多 播 IP 地 址 数据 报 的 这 部 分 代码 。 如 图 23-26 
所 示 。 
121-138 正如 注释 所 表明 的 ， 这 些 数 据 报 被 提交 给 匹配 的 所 有 插口 ， 而 不 仅仅 是 一 个 插口 。 
我 们 提 到 的 UDP 接 口 不 够 指 的 是 除非 连接 上 插口 ， 否 则 进程 没有 能 力 在 UDP 插 口上 接收 异步 
差错 (特别 是 ICMP 端 口 不 可 达 差 错 )。 我 们 22-11 节 讨论 这 个 问题 。 
139-145 源 站 的 了 PP 地 址 和 端口 号 被 保存 在 全 局 sockaddr_in 结 构 的 udap_in 中 ， 传 给 
sbappendaddr。 更 新 mbuf 链 的 长 度 和 数据 指针 ， 忽 略 UDP 和 IP 首 部 。 
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udp usrreq.c 


if (IN MULTICAST (ntohl(ip-»ip dst.s addr)) || 


in broadcast(ip-»ip dst, m-»m pkthdr.rcvif)) ( 
struct socket *last; 
/* 

* Deliver a multicast or broadcast datagram to *all* sockets 
for which the local and remote addresses and ports match 
those of the incoming datagram. This allows more than 
one process to receive multi/broadcasts on the same port. 
(This really ought to be done for unicast datagrams as 
well, but that would cause problems with existing 
applications that open both address-specific sockets and 
a wildcard socket listening to the same port -- they would 
end up receiving duplicates of every unicast datagram. 
Those applications open the multiple sockets to overcome an 
inadequacy of the UDP socket interface, but for backwards 
compatibility we avoid the problem here rather than 
fixing the interface. Maybe 4.5BSD will remedy this?) 


+ +*+ + 


^ 


t t + + XX + + + 和 


/* 
* Construct sockaddr format source address. 
li^ | 

udp in.sin port = uh-»uh, sport; 

udp in.sin addr = ip-»ip src; 


m-»m len -- sizeof(struct udpiphdr); 
m-»m data += sizeof(struct udpiphdr); 
/* 


* Locate pcb(s) for datagram. 
* (Algorithm copied from raw intr().) 


a? i 
last - NULL; 
for (inp = udb.inp next; inp !- &udb; inp = inp-»inp next) ( 
if (inp-»inp lport !- uh-»uh dport) 
continue; 
if (inp-»inp laddr.s addr !- INADDR ANY) ( 
if (inp-»inp laddr.s addr != 
ip-»ip dst.s addr) 
continue; 
) 
if (inp-»inp faddr.s addr != INADDR ANY) ( 


if (inp-»inp faddr.s addr !- 
ip-»ip src.s addr || 
inp-»-inp fport !- uh-»uh, sport) 
continue; 
) 
if (last !- NULL) ( 
struct mbuf *n; 


if ((n = m copy(m, 0, M COPYALL)) != NULL) ( 
if (sbappendaddr(&last-»so, rcv, 
(struct sockaddr *) &udp in, 
B, (Struct mbuf =) 0) s> 0) + 
m freemín); 
udpstat.udps fullsock--; 
) else 
sorwakeup(last); 


) 


last - inp-»inp socket; 


图 23-26 udap_input 国 数 : 分 用 广播 或 多 播 数据 报 
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178 pt 

179 * Don't look for additional matches if this one does 
180 * not have either the SO REUSEPORT or SO REUSEADDR 

181 * socket options set. This heuristic avoids searching 
182 * through all pcbs in the common case of a non-shared 
183 * port. It assumes that an application will never 

184 * clear these options after setting them. 

185 *y 

186 if ((last-»so options & (SO REUSEPORT | SO REUSEADDR) == 0)) 
187 break; 

188 ) 

189 if (last == NULL) ( 

190 y" 

191 * No matching pcb found; discard datagram. 

192 * (No need to send an ICMP Port Unreachable 

193 * for a broadcast or multicast datgram.) 

194 *J 

195 udpstat.udps noportbcast-4-*; 

196 goto bad; 

197 ) 

198 if (sbappendaddr(&last-»so rcv, (struct sockaddr *) &udp in, 
199 m, (struct mbur *) 0) == 9) 4 

200 udpstat.udps fullsock-«-; 

201 goto bad; 

202 ) 

203 sorwakeup(last); 

204 return; 

205 ) 


udp usrreq.c 


图 23-26 (£x) 


146-164 大 的 for 循 环 扫 拉 每 个 UDP PCB ， 寻 找 所 有 匹配 PCB 。 这 种 分 用 不 调用 
in_pcblookup， 因 为 它 只 返回 一 个 PCB， 而 广播 或 多 播 数据 报 可 能 需要 提交 给 多 个 PCB，。 
如 果 PCB 的 本 地 端口 和 收 到 数据 报 的 本 地 端口 不 匹配 ， 则 忽略 该 条 目 。 如 果 PCB 的 本 地 
问 口 不 是 通 配 地 址 ， 则 把 它 和 目的 IP 地 址 比较 ， 如 果 不 相等 则 跳 过 该 条 目 。 如 果 PCB 内 的 外 
部 地 址 不 是 通 配 地 址 ， 就 把 它 和 源 站 IP 地 址 比较 ， 如 果 不 匹 瑟 ， 则 外 部 端口 也 必须 和 源 站 端 
口 匹 配 。 最 后 一 个 检测 假定 ， 如 果 插 口 连接 到 某 个 外 部 IP 地 址 ， 则 它 也 必须 连接 到 一 个 外 部 
问 口 ， 反 之 亦 然 。 这 与 n_pcblookup 函 数 的 逻辑 相同 。 
165-177 如 果 这 不 是 第 一 个 匹配 (Last 非 空 )， 则 把 该 数据 报 放 到 上 一 个 匹配 的 接收 队列 中 。 
因为 当 sbappendaddr 完 成 后 要 释放 mbuf 链 ， 所 以 m_copy 先 要 做 个 备份 。sorwakeup 唤 醒 
所 有 等 待 这 个 数据 的 进程 ，1ast 保 存 指 加 匹配 的 socket 结 构 的 指针 。 
使 用 变量 1ast 避 免 调 用 m_copy 图 数 (因为 要 复制 整个 nbuf 链 ， 所 以 耗费 很 大 )， 除 非 有 
多 个 接收 方 接收 该 数据 报 。 在 通 稼 只 有 一 个 接收 方 的 情况 下 ，foz 循 环 必 须 把 1ast 设 成 指 
癌 一 个 匹配 PCB， 当 循环 终止 时 ，sbappendadqdr 把 mbuf 链 放 到 插口 的 接收 队列 中 一 一 不 做 
备份 。 
178-188 如果 匹 配 的 揪 口 没有 设置 SO_REUSEPORT 或 SO_REUSERADDR 揪 口 选 项 ， 则 没 必 
要 再 找 其 他 匹配 ， 终 止 该 循环 。 在 循环 的 外 部 ， 调 用 sbappendaddr 把 数据 报 放 到 这 个 插口 
的 接收 队列 中 。 
189-197 如 果 在 循环 的 最 后 ，1Last 为 空 ， 没 找到 匹配 ， 则 并 不 产生 ICMP 差 错 ， 因 为 该 数 
据 报 是 发 给 广播 或 多 播 卫 地 址 。 
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198-204 最 后 的 匹配 条 目 ( 可 能 是 唯一 的 匹配 条 目 ) 把 原来 的 数据 报 (m) 放 到 它 的 接收 队列 中 。 
在 调用 sorwakeup 后 ，udp input 返回 ， 因 为 完成 了 对 广播 或 多 播 数 据 报 的 处 理 。 
函数 的 其 他 部 分 (图 23-24) 处 理 单 播 数 据 报 。 


23.7.4 连接 上 的 UDP 插口 和 多 接口 主机 


在 使 用 连接 上 的 UDP 插口 与 多 接口 主机 上 的 一 个 进程 交换 数据 报时 ， 有 一 个 微妙 的 问题 。 
来 自 对 等 实体 的 数据 报 可 能 到 达 时 有 具有 不 同 的 源 站 熙 地 址 ， 不 能 提交 给 连接 上 的 插口 。 
芳 虑 图 23-27 所 示 的 例子 。 


PPP 链 路 





服务 器 进程 ， 
未 连接 上 的 
UDP 


客户 进程 
连接 到 


图 23-27 连接 上 的 UDP 插口 同一 个 多 接口 主机 发 送 数据 报 的 例子 


有 三 个 步骤 : 

1) bsdqi 上 的 客户 程序 创建 一 个 UDP 插口 ， 并 把 它 连 接 到 140.2$2.1.29， 这 是 sun 上 的 PPP 
接口 ， 而 不 是 以 太 网 接口 。 客 户 程 序 在 插口 上 把 数据 报 发 给 服务 器 。 

Sun 上 的 服务 器 接收 并 收 下 该 数据 报 ， 即 使 到 达 接 口 与 目的 IP 地 址 不 同 (sun 是 一 个 路 由 
莒 ， 所 以 不 管 它 实现 的 是 弱 冰 系统 模型 或 踢 峭 系统 模型 都 没有 关系 )。 数 据 报 被 提交 给 在 未 连 
接 上 的 UDP 插口 上 等 待 客 户 请 求 的 服务 器 。 

2) 服务 器 发 一 个 回答 ， 因 为 是 在 一 个 未 连接 上 的 UDP 插口 上 发 送 的 ， 所 以 由 内 核 根 据 外 
出 的 接口 (140.252.13.33) 选 择 回答 的 目的 IP 地 址 。 请 求 的 目的 IP 地 址 不 作为 回答 的 源 站 地 址 。 

bsdi 收 到 回答 时 ， 因 为 IP 地 址 不 匹配 ， 所 以 不 把 它 提交 给 客户 程序 的 连接 上 的 UDP 
H. 

3) 因为 无 法 分 用 回答 ， 所 以 bsdai 产 生 一 个 ICMP 端 口 不 可 达 差 错 (假定 在 psdQi 上 没有 其 
他 进程 符合 接收 该 数据 报 的 条 件 )。 

这 个 例子 的 问题 在 于 ， 服 务 右 并 不 把 请 求 中 的 目的 了 P 地 址 作为 回答 的 产 站 IP 地 址 。 如 采 
它 这 样 做 ， 就 不 存在 这 个 问题 了 ， 但 这 个 办 法 并 不 简单 一 一 见习 题 23.10。 我 们 将 在 图 28-16 中 
看 到 ， 如 果 一 个 TCP 服 务 器 没有 明确 地 把 一 个 本 地 IP 地 址 绑 定 它 的 插口 上 ， 它 就 把 来 目 客户 
的 目的 耻 地 址 用 作 来 自 它 目 己 的 产 卫 地 址 。 


23.8 udp saveopt ži 


如 果 进 程 指定 了 IP_RECVDSTRADDR 插 口 选 项 ， 则 uap_input 调 用 udap_saveopt， 从 
收 到 的 数据 报 中 接收 目的 IP 地 址 : 
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*mp - udp saveopt((caddr t) & ip dst, sizeof(struct in addr), 
IP RECVDSTADDR).; 


图 23-28 显 示 了 这 个 函数 。 















298 7 udp usrreq.c 
279 * Create a "control" mbuf containing the specified data 
280 * with the specified type for presentation with a datagram. 
281  */ 
282 struct mbuf * 
283 udp saveopt(p, size, type) 
284 caddr t p; 
285 int size; 
286 int type; 
287 ( 
288 struct cmsghdr *cp; 
289 struct mbuf *m; 
290 if ((m = m get (M DONTWAIT, MT CONTROL)) == NULL) 
291 return ((struct mbuf *) NULL); 
292 Cp = (struct cmsghdr *) mtod(m, struct cmsghdr *); 
293 bcopy(p, CMSG  DATA(Cp), size); 
294 size «- sizeof(*cp); 
295 m-»m len = size; 
296 Cp-»cmsg len = size; 
297 Cp-»cmsg level = IPPROTO IP; 
298 Cp-»cmsg type = type; 
299 return (m); 
300 ) 
udp usrreq.c 
图 23-28 udp saveoptiKZk: 用 控制 信息 创建 mbuf 
mbuf() 
NULL 
NULL 
20:35 16 
MT. CONTROL 
0 
cmsg len 16 
IP_RECVDSTADDR  ( 16 位 控制 信息 






图 23-29 把 收 到 的 数据 报 的 目的 地 址 作为 控制 信息 保存 的 mbuf 


276-286 参数 包括 P， 一 个 指向 存储 在 mbuf 中 的 信息 的 指针 ( 收 到 的 数据 报 的 目的 IP 地 址 ); 
size， 字 市 数 大 小 (在 这 个 例子 中 是 4，IP 地 址 的 大 小 )， 以 及 type， 控 制 信息 的 类 型 
(IP RECVDSTADDR), 

290-299 分配 一 个 mbuf， 并 且 因 为 是 在 软件 中 断 级 执行 代码 ， 所 以 指定 M_DONTWRAIT。 指 
针 cp 指 同 mbuf 的 数据 部 分 ， 是 一 个 指向 cmsghar 结 构 ( 图 16-14) 的 指针 。bcopy 把 IP 首 部 中 


目的 IP 地 址 
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的 IP 地 址 复制 到 cmsghar 结 构 的 数据 部 分 。 然 后 设置 紧 跟 在 cmsghdr 结 构 后 面 的 mbuf 的 长 度 
(在 本 例 中 设 成 16)。 图 23-29 是 mbuf 的 最 后 一 个 状态 。 

cmsg_len 字 段 包 含 了 cmsghdr 的 长 度 (12) 加 上 cmsg_data 字 有 段 的 长 度 ( 本 例 中 是 4)。 如 
果 应 用 程序 调用 recvmsg 接 收 控制 信息 ， 则 它 必须 检查 cmsghdr 结 构 ， 确 定 cmsg_data 字 
段 的 类 型 和 长 度 。 


23.9 udp ctlinput Ağ 


当 icmp_input 收 到 一 个 ICMP 差 错 (目的 主机 不 可 达 、 参 数 问 题 、 重 定向 、 源 站 抑制 和 
超时 ) 时 ， 调 用 相应 协议 的 pr_ct1linput 国 数 : 
if (ctlfunc = inetsw[ ip protox[icp-»icmp ip.ip p] l.pr ctlinput) 
(*ctlfunc) (code, (struct sockaddr *)&icmpsrc, &icp-»icmp ip); 


对 于 UDP， 调 用 图 22-32 显 示 的 国 数 uap_ct1linput。 我 们 将 在 图 23-30 中 给 出 这 个 国 数 。 
314-322 参数 包括 cmd， 图 11-19 的 一 个 PRC xx 常数 ;，sa， 一 个 指 同 sockaddqr in 结构 的 
指针 ， 该 结构 含有 ICMP 报 文 的 源 站 IP 地 址 ，ip， 一 个 指向 引起 差错 的 IP 首 部 的 指针 。 对 于 目 
的 站 不 可 达 、 参 数 问题 、 源 站 抑制 和 超时 差错 ，ip 指 向 引起 差错 的 IP 首 部 。 但 当 pfctlinput 
为 重 定 问 (图 22-32) 调 用 udp_ctlinput 时 ，sa 指 癌 一 个 sockaddr in 结构 ， 该 结构 中 包含 
要 被 重 定 同 的 目的 地 址 ，ip 是 一 个 空 指针 。 最 后 一 种 情况 没有 信息 丢失 ， 因 为 我 们 在 22.11 市 
看 到 ， 重 定向 应 用 于 所 有 连接 到 目的 地 址 的 TCP 和 UDP 插口 。 但 对 其 他 差错 ， 如 端口 不 可 达 ， 
需要 非 空 的 第 三 个 参数 ， 因 为 协议 跟 在 IP 首 部 后 面 的 协议 首部 包含 了 不 可 达 端 口 。 

323-325 如果 差错 不 是 重 定 同 ， 并 且 PRC_xxx 的 值 太 大 或 全 局 数组 inetctlerrmap 中 没 
有 老 错 码 ， 则 忽略 该 ICMP 差 错 。 为 理解 这 个 检测 ， 我 们 来 看 一 下 对 收 到 的 ICMP 所 做 的 处 理 : 

1) icmp_input 把 ICMP 类 型 和 码 转 换 成 一 个 PRC_xxx 差 错 码 。 

2) 把 PRC_xxx 差 错 码 传 给 协议 的 控制 输入 函数 。 

3) Internet PCB 协 议 (TCP 和 UDP) 用 inetctlerrmap 把 PRC xxx 差 错 码 映射 到 一 个 Unix 
的 errno 值 ， 这 个 值 被 返回 给 进程 。 


xd mend udp usrreq.c 
315 udp ctlinput(cmd, sa, ip) 
4316 Ime cmd; 
317 struct sockaddr *sa; 
318 struct ip *ip; 
319 ( 
320 struct udphndr *unh; 
321 extern struct in_addr zeroin addr; 
322 extern u_char inetctlerrmap[); 
343 if (!PRC IS REDIRECT(cmd) && 
324 ( (unsigned) cmd >= PRC NCMDS || inetctlerrmap[cmd] == 0)) 
325 return; 
326 if (ip) ( 
327 üh = (Struct udphaàr *) (cadar t) 1p £ (ip-»1p.hl sg 2)); 
328 in pcbnotify(&udb, sa, uh-»uh dport, ip-»ip src, uh-»uh sport, 
329 cmd, udp notify); 
330 ) else 
334. in pcbnotify(&udb, sa, 0, zeroin addr, 0, cmd, udp notify); 
332 ] 
udp usrreq.c 


图 23-30 udp ctlinputr&Z&: 处 理 收 到 的 ICMP 差 错 
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11-1 和 图 11-2 总 结 了 ICMP 报 文 的 处 理 。 

回 到 图 23-30， 我 们 可 以 看 到 如 何 处 理 响 应 UDP 数据 报 的 ICMP 源 站 抑制 报 文 。 
icmp_input 把 ICMP 报 文 转换 成 差错 PRC_QUENCH， 并 调用 udap_ct1linput。 但 因为 在 图 
11-2 中 ， 这 个 ICMP 差 错 的 errno 行 是 空白 ， 所 以 忽略 该 差错 。 

326-331 in pcbnotify 国 数 把 该 ICMP 差 错 通知 给 恰当 的 PCB 。 如 果 udp_ct1linput 的 第 
三 个 参数 非 空 ， 则 把 引起 差错 数据 报 的 源 和 目的 UDP 疹 口 以 及 源 耳 地址， 传 给 in_pcbnotify。 


udp notify 函数 


in_pcbnotify 函 数 的 最 后 一 个 参数 是 一 个 指 癌 函数 的 指针 ，in_pcbnotify 为 每 个 准 
备 接收 差错 的 PCB 调 用 该 函数 。 对 UDP， 该 函数 是 udp_notify， 如 图 23-31 所 示 。 
301-313 该 函数 的 第 二 个 参数 errno 保 存在 插曲 的 so_error 变 量 中 。 通 过 设置 这 个 插口 
恋 量 ,使 插口 变 成 可 读 ， 并 且 如 果 进 程 调用 select， 插口 也 可 写 。 然 后 唤醒 插口 上 所 有 正在 
等 待 接收 或 发 送 的 进程 接收 该 差错 。 


305 static void IT 
306 udp notify(inp, errno) 
307 struct inpcb *inp; 
308 int errno; 
309 ( 
310 inp-»inp. socket-»so error = errno; 
311 Sorwakeup(inp-»inp. socket); 
312 Sowwakeup (inp-»inp socket); 
313 j 
udp usrreq.c 


图 23-31 udp notifyr&Z&: 通知 进程 一 个 异步 差错 


23.10 udp usrredg 国 数 


许多 操作 都 要 调用 协议 的 用 户 请 求 函 数 。 从 图 23-14 我 们 看 到 ， 在 某 个 UDP 插 口上 调用 五 
个 写 函 数 中 的 任意 一 个 ， 都 以 请 求 PRU_SEND 调 用 UDP 的 用 户 请 求 函 数 结束 。 

图 23-32 显 示 了 udp_usrreq 的 开始 和 结束 。switch 单 独 在 后 面 的 图 中 给 出 。 图 15-17 显 
示 了 该 函数 的 参数 。 

417 int 


418 udp.usrreq(so, req, m, addr, control) 
419 struct socket *so; 


udp usrreq.c 


420 int req; 

421 struct mbuf *m, *addr, *control; 

422 { 

423 struct inpcb *inp = sotoinpcb(so); 

424 int error = 0; 

425 int S; 

426 if (req == PRU. CONTROL) 

427 return (in .control(so, (int) m, (caddr t) addr, 
428 (struct ifnet *) control)); 
429 if (inp == NULL && req !- PRU ATTACH) ( 

430 error - EINVAL; 

431 goto release; 

432 } 


图 23-32 udp_usrreqh ği% 
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433 /* 
434 * Note: need to block udp input while changing 
435 * the udp pcb queue and/or pcb addresses. 
436 -J 
437 switch (req) ( 
T Sa switch cases */ 2 
522 default: 
523 panic("udp usrreq"); 
524 ) 
525 release: 
526 if (control) ( 
521 printf ("udp control data unexpectedly retainedWMn"); 
528 m freem(control); 
529 ) 
530 if (m) 
531 m freem(m); 
532 return (error); 
533 ) 


udp usrreq.c 
图 23-32 (fX) 


417-428 PRU CONTROL KÆ Á ioctl. Afrin control 完 整地 处 理 该 请 求 。 
429-432 在 阔 数 的 开头 定义 inp 时 ， 把 插口 指针 转换 成 PCB 指 针 。 唯 一 允许 PCB 指 针 为 空 
的 时 候 是 创建 新 插口 时 (PRU_ATTACH)。 
433-436 注释 表明 ， 只 要 在 UDP PCB 表 中 增加 或 删除 表 项 ， 代 码 必须 由 splnet 保 护 起 来 。 
这 是 因为 udp_usrreq 是 作为 系统 调用 的 一 部 分 来 调用 的 ， 在 它 修改 PCB 的 双重 链表 时 ， 不 
能 被 UDP 输入 中 断 ( 被 卫 输 入 作为 软件 中 断 调用 )。 在 修改 PCB 的 本 地 或 外 部 地 址 或 闯 口 时 ， 也 
必须 阻塞 UDP 输入 ， 避 免 in_pcblookup 不 正确 地 提交 收 到 的 UDP 数据 报 。 

我 们 现在 讨论 每 个 case 语 句 。 图 23-33 语 句 中 的 PRU_ATTACH 请 求 ， 来 自 socket 系 统 调用 。 


udp usrreq.c 
438 case PRU ATTACH: 
439 if (inp != NULL) ( 
440 error - EINVAL; 
441 break; 
442 ) 
443 S = spinet(í); 
444 error = in pcballoc(so, &udb); 
445 splx(s); 
446 if (error) 
447 break; 
448 error = soreserve(so, udp sendspace, udp recvspace); 
449 if (error) 
450 break; 
451 ((struct inpcb *) so-»so pcb)-»inp ip.ip ttl = ip defttl; 
452 break; 
453 case PRU, DETACH: 
454 udp. detach(inp); 
455 break; 
udp usrreq.c 





图 23-33 udp usrreqtRZy:. PRU ATTACH 和 和 PRU DETRACH 请 求 
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438-447 如 果 插 口 结构 已 经 指 疝 一 个 PCB， 则 返回 EINVAL。in pcballoc 分 配 一 个 新 的 
PCB， 把 它 加 到 UDP PCB 表 的 前 面 ， 把 插口 结构 和 PCB 链 接 到 一 起 。 

448-450 soreserve 为 插口 的 发 送 和 接收 缓存 保留 缓存 空间 。 如 图 16-7 所 示 ， 
soreserve 只 是 实施 系统 的 限制 ， 并 没有 真正 分 配 缓存 空间 。 发 送 和 接收 缓存 的 默认 大 小 分 
别 是 9216 字 节 (udp sendspace) 和 41 600 字 节 (udp recvspace)。 前 者 允许 最 大 9200 字 市 
的 数据 报 (在 NFS 分 组 中 ， 有 8 KB 的 数据 )， 加 上 16 字 市 目的 地 址 的 sockaddr_in 结 构 。 后 者 
允许 插口 上 一 次 最 多 有 40 个 1024 字 市 的 数据 报 排队 。 进 程 可 调用 setsockopt 改 变 这 些 值 。 
451-452 进程 通过 setsockopt 国 数 可 以 改变 PCB 中 原型 IP 首 部 的 两 个 字段 : TTL 和 TOS。 
TTL 默 认 值 是 64(ip _ aqeftt1)，TOS 的 默认 值 是 0( 普 通 服 务 )， 因 为 in_ pcballoc 把 PCB 初 
始 化 为 0。 

453-455 close 系统 调用 发 布 PRU_DETRACH 请 求 ， 调 用 图 23-34 所 示 的 udp_dqetach 国 数 。 
本 节 后 面 的 PRU_RBORT 请 求 也 调用 这 个 国 数 。 


udp usrreq.c 
534 static void 
535 udp. detach(inp) 
536 struct inpcb *inp; 
537 ( 
538 int S = Ssplnet(); 
539 if (inp == udp last. Jnpcb) 
540 udp last inpcb - &udb; 
541 in pcbdetach(inp); 
542 splx(s); 
543 } 

udp usrreq.c 


图 23-34 udp detach: 删除 一 个 UDP PCB 


如 果 最 后 收 到 的 PCB 指 针 (“ 向 后 一 个 ”缓存 ) 指 同一 个 已 分 离 的 PCB， 则 把 缓存 的 指针 设 
成 指 同 UDP 表 的 表 头 (udb)。 eRe i 表 中 移 走 PCB ， 并 释放 该 PCB 。 

回 到 udp usrreq, PRU BIND 请 求 是 系统 调用 bindq 的 结果 ， 而 PRU_LISTEN 请 求 是 系 
统 调用 1isten 的 结果 。 如 图 23-35 所 示 。 
456-460 in pcbbind 完 成 所 有 PRU BIND 请 求 的 工作 。 
461-463 对 无 连接 协议 来 说 ，PRU_LISTEN 请 求 是 无 效 的 一 一 只 有 面 问 连接 的 协议 才 使 用 它 。 


udp usrreq.c 
456 case PRU  BIND: 
457 s = splinet(); 
458 error = in, pcbbind(inp, addr); 
459 splx(s); 
460 break; 
461 case PRU_LISTEN: 
462 error = EOPNOTSUPP; 
463 break; 
udp usrreq.c 


图 23-35 _ udp_usrred 国 数 : PRU BIND 和 PRU _ LISTEN 请 求 


前 面 提 到 ， 一 个 UDP 应 用 程序 ， 客 户 或 服务 器 (通常 是 客户 )， 可 以 调用 connect。 它 修 
改 插口 发 送 或 接收 的 外 部 IP 地 址 和 端口 号 。 图 23-36 显 示 了 PRU CONNECT, PRU CONNECT2 
和 和 PRU _ACCEPT 请 求 。 
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464-474 ”如果 插口 已 经 连接 上 ， 则 返回 EISCONN。 在 这 个 时 候 ， 不 应 该 连接 上 插口 ， 因 为 
在 一 个 已 经 连接 上 的 UDP 插 口上 调用 connect,， 会 在 生成 PRU_CONNECT 请 求 之 前 生成 
PRU_DISCONNECT 请 求 。 否则 ,由 in_pcbconnect 完 成 所 有 工作 。 如 果 没 有 过 到 任何 错误 ， 
soisconnected 就 把 该 插口 结构 标记 成 已 经 连接 上 的 。 

475-477 socketpair 系 统 调用 发 布 PRU_CONNECT2 请 求 ， 只 适用 于 Unix 域 的 协议 。 
478-480 PRU_ACCEPT 请 求 来 自 系统 调用 accept， 只 适用 于 面向 连接 的 协议 。 


udp_usrreq.c 
464 case PRU CONNECT: 
465 if (inp-»inp faddr.s addr !- INADDR ANY) ( 
466 error - EISCONN; 
467 break; 
468 ) 
469 S - Splnet(); 
470 error = in pcbconnect(inp, addr); 
471 splx(s); 
472 jf (terror == 0) 
473 soisconnected(so); 
474 break; 
475 case PRU CONNECT2: 
476 error - EOPNOTSUPP; 
477 break; 
478 case PRU. ACCEPT: 
479 error - EOPNOTSUPP; 
480 break; 


udp usrreq.c 
图 23-36 udp usrreqFfüu Tí. PRU CONNECT, PRU CONNECT2jIPRU ACCEPTifi;k 


对 于 UDP 插口 ， 有 两 种 情况 会 产生 PRU_DISCONNECT 请 求 : 

1) 当 关 闭 了 一 个 连接 上 的 UDP 插 口 时 ， 在 PRU _ DETACH 之 前 调用 PRU DISCONNECT, 

2) 当 在 一 个 已 经 连接 上 的 UDP 插 口上 发 布 connect 时 ，soconnect 在 PRU CONNECT 
请 求 之 前 发 布 PRU DISCONNECT 请 求 。 

PRU DISCONNECT 请 求 如 图 23-37 所 示 。 





udp usrreq.c 
481 case PRU DISCONNECT: 
482 if (inp-»inp faddr.s, addr == INADDR ANY) ( 
483 error - ENOTCONN; 
484 break; 
485 } 
486 S = spinet i); 
487 in pcbdisconnect (inp); 
488 inp-»inp laddr.s, addr = INADDR, ANY; 
489 splx (s); 
490 so->so_state &- ^SS ISCONNECTED; FE XXX */ 
491 break; 
udp usrreq.c 


图 23-37 udp usrreqrAZEz: PRU_DISCONNECT 请 求 


如 果 插 口 没有 连接 上 ， 则 返回 ENOTCONN。 否 则 ，in_pcbdisconnect 把 外 部 IP 地 址 设 
成 0.0.0.0， 把 外 部 地 址 设 成 0。 本 地 地 址 也 被 设 成 0.0.0.0， 因 为 connect 可 能 已 经 设置 了 这 个 
PCB 变 量 。 

调用 shutdown 说 明 进 程 数据 发 送 结束 ， 产 生 PRU SHUTDOWN 请 求 ， 尽 管 对 UDP 插口 来 
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说 ， 很 少 有 进程 发 布 这 个 系统 调用 。 图 23-38 显 示 了 PRU_SHUTDOWN、BPRU_SEND 和 
PRU ABORT 请 求 。 

492-494 socantsendmore 设 置 搬 口 的 标志 ， 阻 止 其 他 更 多 输出 。 

495-496 图 23-14 显 示 了 五 个 写 畏 数 如 何 调 用 udap_ surreq， 发布 PRU SEND 请 求 。udp _ 
output 发 送 该 数据 报 ，udap_usrzreg 返 回 ， 避 免 执 行 elease 标 号 语句 (图 23-32)， 因 为 还 不 
能 释放 包含 数据 的 mbuf 链 (m)。IP 输 出 把 这 个 mbuf 链 加 到 合适 的 接口 输出 队列 中 ， 当 发 送 完 数据 
后 ， 由 设备 驱动 如 释放 mbuf 链 。 


udp usrreq.c 
492 case PRU. SHUTDOWN: 
493 socantsendmore(so); 
494 break; 
495 case PRU SEND: ; 
496 return (udp output(inp, m, addr, control)); 
497 case PRU ABORT: 
498 soisdisconnected(so); 
499 udp detach(inp); 
500 break; 
udp usrreq.c 


图 23-38 udp_usrred 国 数 体 : PRU SHUTDOWN, PRU SENDjIPRU  ABORTif:k 


内 核 中 UDP 输 出 的 唯一 缓冲 是 在 接口 的 输出 队列 中 。 如 果 插 口 的 发 送 缓存 内 有 存放 数据 
报 和 目的 地 址 的 空间 ， 则 sosend 调 用 udp_usrreq, 该 函数 调用 udp_output。 图 23-20 显 
示 ，udp_output 继 续 调用 ip_output，ip_output 为 以 太 网 调用 ether output, 把 
数据 报 放 到 接口 的 输出 队列 中 (如 果 有 空间 )。 如 果 进 程 调用 sendto 的 动作 比 接口 快 ， 就 可 以 
发 送 该 数据 报 ，ether_output 返 回 BNOBUES， 并 被 返回 给 进程 。 

497-500 在 UDP 插口 上 从 不 发 布 PRU_RABORT 请 求 。 但 如 果 发 布 ， 则 断 连 插口 ， 分 离 PCB。 

PRU SOCKADDR 和 PRU PEERADDR 请 求 分 别 来 自 系 统 调用 getsockname 和 
getpeername。 这 两 个 请 求 和 PRU_SENSE 请 求 一 起 ， 如 图 23-39 所 示 。 


udp_usrreq.c 
501 case PRU SOCKADDR: 
502 in :setsockaddr (inp, addr); 
503 break; 
504 case PRU_PEERADDR: 
505 in setpeeraddr(inp, addr); 
506 break; 
507 case PRU SENSE: 
508 /* 
509 * fstat: don't bother with a blocksize. 
510 x; 
511 return (0); 
udp usrreq.c 


图 23-39 udp usrredqg 困 数 体 ; PRU  SOCKADDR, PRU PEERADDR 和 PRU__SENSE 请 求 


501-506 国 数 in_setsockaddqr 和 in_setpeeraddr 从 PCB 中 取得 信息 ， 并 把 结果 保存 
在 addr 参 数 中 。 
507-511 系统 调用 fstat 产 生 PRU_SENSE 请 求 。 该 函数 返回 OK， 但 并 不 返回 其 他 信息 。 
我 们 将 在 后 面 看 到 ，TCP 把 发 送 缓存 的 大 小 作为 stat 结 构 的 st_blksize 元 素 返 回 。 

图 23-40 显 示 了 其 他 7 个 PRU_xxx 请 求 ，UDP 插 口 不 支持 。 
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对 最 后 两 个 请 求 的 处 理 略 微 有 些 不 同 ， 因 为 PRU_RCVD 不 把 指向 mbuf 的 指针 (m 是 一 个 非 空 
指针 ) 作 为 参数 传递 ， 而 PRU_RCVOOB 则 传递 指向 协议 mbuf 的 指针 来 填充 。 两 种 情况 下 ， 立 即 返 
回 错误 ， 不 终止 switch 语 句 的 执行 ， 释 放 mbuf 链 。 调 用 方 用 PRU_RCVOOB 释 放 它 分 配 的 mbuf。 


udp usrreq.c 
23 Ne case PRU SENDOOB: 
513 case PRU FASTTIMO: 
514 case PRU SLOWTIMO: 
515 case PRU PROTORCV: 
516 case PRU PROTOSEND: 
51.7 error - EOPNOTSUPP; 
518 break; 
519 case PRU RCVD: 
520 case PRU RCVOOB: 
521 return (EOPNOTSUPP); /* do not free mbuf's */ 


udp usrreq.c 


图 23-40 udp_usrredg 国 数 体 : 不 支持 的 7 个 请 求 


23.11 udp sysctl% 


UDP 的 sysct1l1 函 数 只 支持 一 个 选项 ，UDP 检 验 和 标志 位 。 系 统管 理 员 可 以 禁止 用 
sysct1(8) 程 序 使 能 或 禁止 UDP 检 验 和 。 图 23-41 显 示 了 udp_sysct1l1 了 函数。 该 水 数 调用 
sysctl int 取 得 或 设置 整数 udpcksum 的 值 。 


udp_usrreq.c 
547 udp sysctl(name, namelen, oldp, oldlenp, newp, newlen) 
548 int *name; 
549 u int namelen; 
550 void *oldp; 
55] size t *oldlenp; 
552 void *newp; 
553 size t newlen; 
3554 { 
555 /* All sysctl names at this level are terminal. */ 
556 if (namelen !- 1) 
557 return (ENOTDIR); 
558 switch (name[0]) ( 
559 case UDPCTL CHECKSUM: 
560 return (sysctl int(oldp, oldlenp, newp, newlen, &udpcksum)); 
561 default: 
562 return (ENOPROTOOPT); 
563 ) 
564 /* NOTREACHED */ 
565 3 
udp usrreq.c 


图 23-41 udp sysctl% 


23.12 ”实现 求 精 


23.12.1 UDP PCB 高 速 缓存 


在 22.12 节 中 ， 我 们 讲 到 PCB 搜 索 的 一 般 性 质 ， 以 及 代码 是 如 何 线性 搜索 协议 的 PCB 表 的 。 
现在 我 们 把 它 和 图 23-24 中 UDP 使 用 的 “向 后 一 个 ”高 速 缓存 结合 起 来 。 
“向 后 一 个 ”高 速 缓存 的 问题 发 生 在 当 高 速 缓存 的 PCB 中 有 通 配 值 时 (本 地 地 址 ， 外 部 地 址 
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Sym): 高 速 缓存 的 值 永远 不 和 收 到 的 数据 报 匹 配 。[Partridge 和 Pink 1993] 测试 的 一 个 
解决 办 法 是 ， 修 改 高 速 缓存 ， 不 比较 通 配 值 。 也 就 是 说 ， 不 再 把 PCB 中 的 外 部 地 址 和 数据 报 
的 源 地 址 进行 比较 ， 而 是 只 有 当 PCB 中 的 外 部 地 址 不 是 通 配 地 址 时 ， 才 比较 这 两 个 值 。 

这 个 办 法 有 一 个 微妙 的 问题 [Partridge 和 Pink 1993]。 假 定 有 两 个 揪 口 绑 定 到 本 地 端口 555 
上 。 其 中 一 个 有 三 个 通 配 成 分 ， 而 另 一 个 已 经 连接 到 外 部 地 址 128.1.2.3， 外 部 端口 1600。 如 
果 我 们 高 速 缓存 第 一 个 PCB， 且 有 一 个 数据 报 来 自 128.1.2.3， 疡 口 1600， 则 不 能 仅仅 因为 高 
速 缓存 的 值 具有 通 配 外 部 地 址 就 不 比较 外 部 地 址 。 这 叫 作 高 速 缓存 隐藏 (cache hiding)。 在 这 
个 例子 中 ， 高 速 缓存 的 PCB 隐 藏 了 另 一 个 更 好 匹配 的 PCB 。 

为 解决 高 速 缓 存 隐藏 ， 当 在 高 速 缓 存 加 上 或 删除 一 个 条 目 时 ， 要 做 更 多 的 工作 。 不 能 高 
速 缓 存 那些 可 能 隐藏 其 他 PCB 的 PCB 。 但 这 很 简单 ， 因 为 普通 情形 是 每 个 本 地 端口 都 有 一 个 
插口 。 刚 才 我 们 给 的 例子 中 ， 两 个 揪 口 都 绑 定 到 本 地 端口 555， 尽 管 可 能 (尤其 在 一 个 多 接口 
主机 上 )， 但 很 少见 。 

[Partridge 和 Pink 1993] 的 另 一 个 提高 测试 的 也 是 记录 最 后 发 送 的 数据 报 的 PCB 。 这 是 
[Mogul 1991] 提 出 的 ， 指 出 在 所 有 收 到 的 数据 报 中 ， 一 半 都 是 对 最 后 发 送 的 数据 报 的 回答 。 在 
这 里 高 速 缓存 隐藏 也 是 个 问题 ， 所 以 不 高 速 缓存 那些 可 能 隐藏 其 他 PCB 的 PCB。 

在 通用 系统 上 测试 [Partridge 和 Pink 1993] 的 两 种 高 速 缓存 结果 是 ，100 000 个 左右 收 到 的 
UDP 数 据 报 显 示 出 57% 命 中 最 近 收 到 PCB 高 速 缓存 ，30% 命 中 最 近 发 送 PCB 高 速 缓存 。 相 比 于 
没有 高 速 缓存 的 版 本 ，udp_input 使 用 的 CPU 时 间 减 少 了 一 半 还 多 。 

这 两 种 高 速 缓 存 还 在 某 种 程度 上 依赖 于 位 置 : 刚刚 到 达 的 UDP 数据 报 极 大 可 能 来 自 与 最 
近 收 到 或 发 送 UDP 数 据 报 相同 的 对 等 实体 上 。 后 者 对 发 送 一 个 数据 报 并 等 待 回答 的 请 求 一 应 
答应 用 程序 很 典型 。[McKenney 和 Dove 1992] 显示 某 些 应 用 程序 ， 如 联机 交易 处 理 (OLTP) 系 
统 的 数据 条 目 ， 没 有 产生 [Partridge 和 Pink 1993] 观察 到 的 很 高 的 命中 率 。 正 如 我 们 在 22.12 节 
中 提 到 的 ， 对 于 具有 上 千 个 OLITP 连 接 的 系统 来 说 ， 把 PCB 放 在 哈 希 链 上 ， 相 对 于 最 近 收 到 和 
最 近 发 送 高 速 缓存 而 言 ， 性 能 提高 了 一 个 数量 级 。 


23.12.2 UDP 检验 和 


提高 实现 性 能 的 下 一 个 领域 是 把 进程 和 内 核 之 间 的 数据 复制 与 检验 和 计算 结合 起 来 .NeV3 中 ， 
在 输出 操作 中 ， 每 个 数据 都 被 处 理 两 志 : 一 次 是 从 进程 复制 到 mbuf 中 (uiomove 函 数 ， 被 sosend 
调用 )， 另 一 次 是 计算 UDP 检验 和 (函数 in_cksum 被 udp_output 调 用 )。 输 入 跟 输 出 一 样 。 

[Partridge 和 Pink1993] 修改 了 图 23-14 的 UDP 输出 处 理 ， 调 用 一 个 UDP 专 有 图 数 
udp_sosend， 而 不 是 sosend。 这 个 新 国 数 计算 UDP 首部 和 内 艇 的 伪 首 部 的 检验 和 (不 调用 
通用 的 in_cksum 国 数 )， 然 后 用 特殊 图 数 in_uiomove 把 数据 从 进程 复制 到 一 个 mbuf 链 上 
(不 是 通用 困 数 uiomove)， 由 这 个 新 国 数 复制 数据 ， 更 新 检验 和 。 采 用 这 个 技术 ， 人 花 在 复制 
数据 和 计算 检验 和 的 时 间 减 少 了 40% 到 45%。 

在 接收 方 情 况 就 不 同 了 。UDP 计算 UDP 首部 和 伪 首 部 的 检验 和 ， 移 走 UDP 首 部 ， 把 数据 
报 在 合适 的 插口 上 排队 。 当 应 用 程序 读 取 数据 报时 ，s oreceive 的 一 个 特殊 版 本 
(udp_soreceive) 在 把 数据 复制 到 用 户 高 速 缓存 的 同时 ， 计 算 检 验 和 。 但 是 ， 如 果 检 验 和 不 
正确 ， 在 整个 数据 报 被 复制 到 用 户 高 速 缓存 之 前 ， 检 测 不 到 错误 。 对 于 普通 的 阻塞 插口 来 说 ， 
udp_soreceive 仅 仅 等 待 下 一 个 数据 报 的 到 达 。 但 是 大 揪 口 是 无 阻塞 的 ， 且 下 一 个 数据 报 
还 没有 准备 好 传 给 进程 ， 就 必须 返回 差错 EWOULDBLOCK。 对 于 无 阻塞 读 的 UDP 插口 来 说 ， 
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这 意味 着 插口 接口 的 两 个 变化 : 

1) select 畏 数 可 以 指示 无 阻塞 UDP 插口 可 读 ， 但 如果 检 验 和 失败 ， 其 中 一 个 读 函 数 依 
然 要 返回 错误 ENWOULDBLOCK。 

2) 因为 是 在 数据 报 被 复制 到 用 户 高 速 缓存 之 后 检测 到 检验 和 错误 ， 所 以 即使 读 没 有 返回 
数据 ， 应 用 程序 的 高 速 缓存 也 被 改变 了 。 

即使 是 阻塞 插口 ， 如 果 有 检验 和 错误 的 数据 报 包 含 了 100 字 市 的 数据 ， 而 下 一 个 没有 错误 
的 数据 报 包含 40 字 节 的 数据 ， 则 recvfrom 的 返回 长 度 是 40， 但 跟 在 用 户 高 速 缓存 后 面 的 60 
quU, 

[Partridge 和 Pink1993] 在 六 台 不 同 计算 机 上 ， 对 单纯 复制 和 有 检验 和 的 复制 的 计时 做 了 比 
较 。 结 果 显 示 ， 在 许多 体系 结构 的 机 器 上 ， 在 复制 操作 中 计算 检验 和 不 需要 额外 时 间 。 这 种 情 
况 是 在 内 存 访问 速度 和 CPU 处 理 速 度 正 确 匹 配 的 系统 上 的 ， 目 前 许多 RISC 处 理 器 都 符合 条 件 。 


23.13 水 结 


UDP 是 一 个 无 连接 的 人 简单 协议 ， 这 是 我 们 为 什么 在 TCP 之 前 讨论 它 的 原因 。UDP 输 出 很 
简单 : IP 和 UDP 首 部 放 在 用 户 数 据 的 前 面 ， 尽 可 能 填 满 首部 ， 把 结果 传递 给 ijp_output。 唯 
一 复杂 的 是 UDP 检验 和 计算 ， 包 括 只 为 计算 UDP 检验 和 而 加 上 一 个 伪 首 部 。 我 们 将 在 第 26 章 
遇 到 用 于 计算 TCP 检 验 和 的 伪 首部 。 

当 udp_input 收 到 一 个 数据 报时 ， 它 首先 完成 一 个 常规 确认 (长 度 和 检验 和 )， 然 后 的 处 
理 根据 目的 IP 地 址 是 单 播 地 址 、 广 播 或 多 播 地 址 而 不 同 。 最 多 把 单 播 数据 报 提 交 给 一 个 进程 ， 
但 多 播 或 广播 数据 报 可 能 会 被 提交 给 多 个 进程 。“ 同 后 一 个 ”高 速 缓存 适用 于 单 播 ， 其 中 维护 
着 一 个 指向 在 其 上 接收 数据 报 的 最 近 Internet PCB 的 指针 。 但 是 ， 我 们 也 看 到 ， 由 于 UDP 应 用 
程序 普遍 使 用 通 配 地 址 ， 所 以 这 个 高 速 缓 存 技术 实际 上 之 无 用 处 。 

调用 udp_ctlinput 函 数 处 理 收 到 的 ICMP 报 文 ，udp_usrreq 函 数 处 理 来 自 插口 层 的 
PRU xxxi 请 求 。 


习题 


23.1 列 出 uap_output 传 给 ip_output 的 mbuf 链 的 五 种 类 型 (提示 : 看 看 sosend)。 

232 当 进 程 为 外 出 的 数据 报 指定 了 IP 选 项 时 ， 上 一 题 会 是 什么 答案 ? 

23.3 UDP 客户 需要 调用 bind 吗 ?为 什么 ? 

23.4 如 果 插 口 没有 连接 上 ， 并 且 图 23-15 中 调用 M _ PREPEND 失 败 ， 那 么 在 udp_output 
里 ， 处 理 器 优先 级 会 发 生 什 么 变化 ? 

23.5 udp_output 不 检测 目的 端口 0。 它 可 能 发 送 一 个 具有 目的 端口 0 的 UDP 数 据 报 吗 ? 

23.6 假定 当 把 一 个 数据 报 发 送 到 一 个 广播 地 址 时 ，IP_RECVDSTADDR 插 口 选项 有 效 ， 
你 如 何 确 定 这 个 地 址 是 否 是 一 个 广播 地 址 ? 

23.7 谁 释放 udp saveopt( 图 23-38) 分 配 的 mbuf? 

23.8 进程 如 何 断 连连 接 上 的 UDP 插口 ? 也 就 是 说 ， 进 程 调用 connect 并 与 对 等 实体 交 
换 数据 报 ， 然 后 进程 要 断 连 插 口 。 允 许 它 调用 sendto， 并 向 其 他 主机 发 送 数 据 报 。 

23.9 ”我 们 在 图 22-25 的 讨论 中 ， 注 意 到 一 个 用 外 部 下 地 址 255.255.255.255 调 用 connect 的 UDP 
应 用 程序 ， 在 接口 上 发 送 时 ， 是 把 该 接口 对 应 的 广播 地 址 作为 目的 四 地 址 。 如 果 UDPPY 
用 使 用 未 连接 的 插口 ， 用 目的 地 址 255.255.255.255 调 用 sendto， 会 发 生 什么 情况 ? 


第 24 章 TCP.: 传输 控制 协议 


传输 控制 协议 ， 即 TCP， 是 一 种 面向 连接 的 传输 协议 ， 为 两 端的 应 用 程序 提供 可 靠 的 端 
到 病 的 数据 流传 输 服务 。 它 完全 不 同 于 无 连接 的 、 提 供 不 可 靠 的 数据 报 传输 服务 的 UDP 协 议 。 

我 们 在 第 23 章 中 详细 讨论 了 UDP 的 实现 ， 有 9 个 函数 、 约 800 行 C 代 码 。 我 们 将 要 讨论 的 
TCP 实 现 包 括 28 个 函数 、 约 4500 行 C 代 码 ， 因 此 ， 我 们 将 TCP 的 实现 分 成 7 章 来 讨论 。 

这 几 章 中 不 包括 对 TCP 概 念 的 介绍 ， 假 定 读者 已 阅读 过 卷 1 的 第 17~24 章 ， 熟 悉 TCP 的 
操作 。 


24.2 代码 介绍 


TCP 实 现代 码 包 括 7 个 头 文件 (其 中 定义 了 大 量 的 TCP 结 构 和 常量 ) 和 6 个 C 文 件 ， 包 含 TCP 
国 数 的 具体 实现 代码 。 文 件 如 图 24-1 所 示 。 


netinet/tcp.h tcphdr 结 构 定 义 

netinet/tcp debug.h tcp debug 结 构 定义 

netinet/tcp fsm.h TCP 有 限 状 态 机 定义 

netinet/tcp seg.h 实现 TCP 序 号 比较 的 宏 定 义 

netinet/tcp timer.h TCP 定 时 器 定义 

netinet/tcp var.h tcpcb (控制 块 ) 和 tcpstat (统计 ) 结构 定义 


netinet/tcpip.h TCP+IP 首 部 定义 


netinet/tcp debug.c 支持 SO_DEBUG 协 议 端 口号 调试 (27.10 节 ) 
netinet/tcp _ input.c tcp input 及 其 辅助 函数 (第 28 章 和 第 29 章 ) 
netinet/tcp output.c tcp_output 及 其 辅助 函数 (第 26 章 ) 
netinet/tcp subr.c 各 种 TCP 子 图 数 (第 27 章 ) 

netinet/tcp timer.c TCP 定 时 器 处 理 ( 第 2S 章 ) 

netinet/tcp usrreq.c PRU xxx 请 求 处 理 (第 30 章 ) 





图 24-1 TCP 各 章 中 将 讨论 的 文件 


图 24-2 接 述 了 各 TCP 函 数 与 其 他 内 核 函数 之 间 的 关系 。 带 阴影 的 椭圆 分 别 表示 我 们 将 要 讨 
论 的 9 个 主要 TCP 函 数 ， 其 中 8 个 出 现在 protosw 结 构 中 (图 24-8)， 第 9 个 是 tcp_output。 


24.2.1 全 局 变量 


图 24-3 列 出 了 TCP 函 数 中 用 到 的 全 局 变量 。 
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系统 初始 化 插口 接收 缓冲 区 多 种 系统 调用 getsockopt 


setsockopt 








domaininit 





图 24-2 TCP 函 数 与 其 他 内 核 函 数 间 的 关系 
wan 
teb struct inpcb 
tcp last inpcb struct inpcb * 
端口 接收 缓存 大 小 默认 值 (8192 字 市) 


tcp recvspace u long 
[teprexmtthresh | int — | ACK 重 复 次 数 的 门限 值 G), MRAR | 


ER 
tcp rttdflt 没有 数据 时 RTT 的 默认 值 (3 秒 ) 
用 于 RFC 1323 时 间 惟 实现 的 $S00 ms 计数 器 


tcp now u long 
保 活 : 第 一 次 探测 前 的 空闲 时 间 (2 小 时 ) 


int 
int 
int 
int 
int 














TCP Internet PCBX XX 
指向 最 后 收 到 报 文 段 的 PCB 的 指针 :“ 后 面 一 个 ”高 速 缓存 
TCP 统 计数 据 ( 图 24-4) 
输出 标志 数组 ， 索 引 为 连接 状态 (图 24-16) 




















tcp keepidle 
tcp keepintvl 


tcp maxidle 


保 活 : 探测 之 后 、 放 弃 之 前 的 时 间 (10 分 钟 ) 
图 24-3 后 续 章 市 中 将 介绍 的 全 局 变量 
24.2.2 统计 量 


全 局 结构 变量 tcpstat 中 保存 了 各 种 TCP 统 计量 ， 图 24-4 描 述 了 各 统计 量 的 具体 含义 。 
在 接 下 来 的 代码 分 析 过 程 中 ， 读 者 会 了 解 这 些 计数 器 数值 的 变化 过 程 。 
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tcpstatJX bi 


tcps accepts 

tcps closed 

tcps connattempt 
tcps conndrops 
tcps connects 

tcps delack 

tcps drops 

tcps keepdrops 
tcps keepprobe 
tcps keeptimeo 
tcps pawsdrop 

tcps pcbcachemiss 
tcps persisttimeo 
tcps predack 

tcps preddat 

tcps rcvackbyte 
tcps rcvackpack 
tcps rcvacktoomuch 
tcps rcvafterclose 
tcps rcvbadoff 
tcps rcvbadsum 
tcps rcvbyte 

tcps rcvbyteafterwin 
tcps rcvdupack 
tcps rcvdupbyte 
tcps rcvduppack 
tcps rcvoobyte 
tcps rcvoopack 
tcps rcvpack 

tcps rcvpackafterwin 
tcps rcvpartdupbyte 
tcps rcvpartduppack 
tcps rcvshort 

tcps rcvtotal 

tcps rcvwinprobe 
tcps rcvwinupd 
tcps rexmttimeo 
tcps rttupdated 
tcps segstimed 
tcps sndacks 

tcps sndbyte 

tcps sndctrl 

tcps sndpack 

tcps sndprobe 

tcps sndrexmitbyte 
tcps sndrexmitpack 
tcps sndtotal 

tcps sndurg 

tcps sndwinup 

tcps timeoutdrop 


SNMP 使 用 


被 动 打开 的 连接 数 

关闭 的 连接 数 (包括 意外 丢失 的 连接 ) 
试图 建立 连接 的 次 数 (调用 connect ) 

在 连接 建立 阶段 失败 的 连接 次 数 (SYN 收 到 之 前 ) 
主动 打开 的 连接 次 数 ( 调 用 connect 成 功 ) 
延 述 发 送 的 ACK 数 

意外 丢失 的 连接 数 ( 收 到 SYN 之 后 ) 

在 保 活 阶段 丢失 的 连接 数 (已 建立 或 正 等 待 SYN) 
保 活 探测 指针 发 送 次 数 

保 活 定时 器 或 连接 建立 定时 器 超时 次 数 

由 于 PSWS 而 丢失 的 报 文 段 数 

PCB 高 速 缓存 匹配 失败 次 数 
持续 定时 器 超时 次 数 

对 ACK 报 文 首部 预测 的 正确 次 数 

对 数据 报 文 首部 预测 的 正确 次 数 

由 收 到 的 ACK 报 文 确认 的 发 送 字 节 数 

收 到 的 ACK 报 文 数 

收 到 的 对 未 发 送 数 据 进行 确认 的 ACK 报 文 数 
连接 关闭 后 收 到 的 报 文 数 

收 到 的 首部 长 度 无 效 的 报 文 数 

收 到 的 检验 和 错误 的 报 文 数 
连续 收 到 的 字 节 数 

在 请 动 窗口 已 满 时 收 到 的 字 节 数 

收 到 的 重复 ACK 报 文 的 次 数 

在 完全 重复 报 文中 收 到 的 字 节 数 

内 容 完 全 一 致 的 报 文 数 

收 到 失 序 的 字 节 数 

收 到 失 序 的 报 文 数 

顺序 接收 的 报 文 数 

携带 数据 超出 请 动 窗口 通告 值 的 报 文 数 

部 分 内 容重 复 的 报 文中 的 重复 字 节 数 

部 分 数据 重复 的 报 文 数 

长 度 过 短 的 报 文 数 

收 到 的 报 文 总 数 

收 到 的 窗口 探测 报 文 数 

收 到 的 窗口 更 新 报 文 数 

重 传 超时 次 数 

RTT 估 算 值 更 新 次 数 

可 用 于 RTT 测 算 的 报 文 数 

发 送 的 纯 ACK 报 文 数 (数据 长 度 =0) 

发 送 的 字 节 数 

发 送 的 控制 (SYN、FIN、RST) 报 文 数 (数据 长 度 =0) 
发 送 的 数据 报 文 数 (数据 长 度 >0) 

发 送 的 窗口 探测 次 数 (等 待定 时 器 强行 加 入 1 字 节 数据 ) 
重 传 的 数据 字 节 数 

重 传 的 报 文 数 

发 送 的 报 文 总 数 

只 携带 URG 标 志 的 报 文 数 (数据 长 度 =0) 

只 携带 窗口 更 新 信息 的 报 文 数 (数据 长 度 =0) 
由 于 重 传 超 时 而 丢失 的 连接 数 





图 24-4 tcpstat 结 构 变 量 中 保存 的 TCP 统 计量 
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在 命令 行 输 入 netstat-s， 系 统 将 输出 当前 TCP 的 统计 值 。 图 24-5 的 例子 显示 了 主机 连续 
运行 30 天 后 ， 各 统计 计数 堪 的 值 。 由 于 某 些 统计 量 互 相关 联 一 一 一 个 保存 数据 分 组 数目 ， 另 一 
个 保存 相应 的 字 市 数 一 一 图 中 做 了 一 些 简化 。 例 如 ， 表 中 第 二 行 tcps_snd(pack,byte) 实 际 
表示 了 两 个 统计 量 , tcps sndpack 和 tcps sndbyte, 


tcps _ sndbyte 值 应 为 3 722 884 824 字 节 ， 而 不 是 一 22 194 928 字 节 ， 平 均 每 个 
数据 分 组 有 450 字 节 。 与 之 类 似 ，tcps rcvackbyte 值 应 为 3 738 811 552 字 节 ， 而 
不 是 一 21 264 360 字 节 ( 平 均 每 个 数据 分 组 565 字 节 )。 这 些 数 据 之 所 以 被 错误 地 显示 ， 
是 因为 netstat 程 序 中 调用 printf 语 名 时 使 用 了 %d( 符 号 整 型 )， 而 非 %lu( 无 符号 
长 整 型 )。 所 有 统计 量 均 定义 为 无 符号 长 整 型 ， 上 面 两 个 统计 量 的 值 已 接近 无 符号 32 
位 长 整 型 的 上 限 (23 一 1=4 294 967 295), 


netstat -s 输出 tcpstat 成 员 


10,655,999 packets sent tcps sndtotal 
9,177,823 data packets (-22,194,928 bytes) tcps sndí(pack,byte] 
257,295 data packets (81,075,086 bytes) retransmitted tcps sndrexmit(í(pack,byte) 
862,900 ack-only packets (531,285 delayed) tcps sndacks,tcps delack 
229 URG-only packets tcps, sndurg 
3,453 window probe packets tcps sndprobe 
74,925 window update packets tcps sndwinup 
279,387 control packets tcps sndctrl 







































8,801,953 packets received 
6,617,079 acks (for -21,264,360 bytes) 
235,311 duplicate acks 
0 acks for unsent data 
4,670,615 packets (324,965,351 bytes) rcvd in-sequence 
46,953 completely duplicate packets (1,549,785 bytes) 
22 old duplicate packets 
3,442 packets with some dup. data (54,483 bytes duped) 
77,114 out-of-order packets (13,938,456 bytes) 
1,892 packets (1,755 bytes) of data after window 
1,755 window probes 
175,476 window update packets 
1,017 packets received after close 
60,370 discarded for bad checksums 
279 discarded for bad header offset fields 
0 discarded because packet too short 


tcps rcvtotal 
tcps rcvackípack,byte) 
tcps, rcvdupack 

tcps, rcvacktoomuch 

tcps rcvípack,byte) 

tcps rcvdupípack,byte)] 
tcps, pawsdrop 

tcps, rcvpartdupípack,byte) 
tcps. rcvooípack,byte) 

tcps rcví(pack,byte)afterwin 
tcps rcvwinprobe 

tcps. rcvwindup 

tcps rcvafterclose 

tcps. rcvbadsum 

tcps. rcvbadoff 

teps rcvshort 





































144,020 connection requests 
92,595 connection accepts 
126,820 connections established (including accepts) 
237,743 connections closed (including 1,061 drops) 
110,016 embryonic connections dropped 
6,363,546 segments updated rtt (of 6,444,667 attempts) 
114,797 retransmit timeouts 

86 connection dropped by rexmit timeout 
1,173 persist timeouts 
16,419 keepalive timeouts 
6,899 keepalive probes sent 
3,219 connections dropped by keepalive 


tcps  connattempt 
tcps accepts 
tcps connects 
tcps, closed,tcps. drops 
tcps, conndrops 













tcps (rttupdated,segstimed) 
tcps, rexmttimeo 

tcps timeoutdrop 

tcps. persisttimeo 

tcps, keeptimeo 

tcps, keepprobe 

tcps keepdrops 











733,130 correct ACK header predictions 
1,266,889 correct data packet header predictions 
1,851,557 cache misses 


tcps predack 
tcps preddat 
tcps, pcbcachemiss 


图 24-5 TCP 统 计量 样本 
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24.2.3 SNMP 变 量 


图 24-6 列 出 了 SNMP TCP 组 中 定义 的 14 个 SNMP 简 单 变 量 ， 以 及 与 它们 相对 应 的 
tcpstat 结 构 中 的 统计 量 。 前 四 项 的 常量 值 在 Net/3 中 定义 ， 计 数 器 tcpCurrEstab 用 于 保 
存 TCP PCB 表 中 Internet PCB 的 数目 。 

图 24-7 列 出 了 tcpTable， 即 TCP 监 听 表 (listener table ), 


4 


tcpRtoAlgorithm 用 于 计算 重 传 定时 时 限 的 算法 : 
1= 其 他 ; 
2=RTO 为 固定 值 ; 
3=MIL 一 STD 一 1778 附 录 B， 
4=Van Jacobson 的 算法 ; 


最 小 重 传 定时 时 限 ， 以 莹 秒 为 单 位 
最 大 重 传 定时 时 限 ， 以 赦 秒 为 单位 
"TOR KTCPIERERLC RED 
CLOSED 转 换 到 SYN SENTA 
人 LISTEN 转 换 到 SYN RCVD 的 次 


tcpAttemptFails tcps conndrops 从 SYN_SENT 或 SYN_RCVD 转 换 到 CLOSED 的 
tcpEstabResets tcps drops 从 ESTABLISHED 或 CLOSE_WAIT 转 换 到 
的 连接 数 


TETITEVT. 


tcpOutSegs tcps sndtotal - 发 送 的 报 文 总 数 ， 减 去 重 传 报 文 数 
tcps sndrexmitpack 
tepecendrexmitpack | ”二 伟 的 扩 文人 


tcpInErrs tcps rcvbadsum + 收 到 的 出 错 报 文 总 数 
tcps rcvbadoff + 






























tcps rcvshort 


(未 实现 ) RST 标 志 置 位 的 发 送 报 文 数 





图 24-6 tcp 组 中 的 简单 SNMP 变 量 


















tcpConnState t state 连接 状态 : 1 = CLOSED, 2-LISTEN, 3 = SYN SENT, 
10 = CLOSING, 11 = TIME_WAIT,12 = 删除 TCP 控 制 块 
"TID 


index = «tcpConnLocalAddress».«tcpConnLocalPort».«tcpConnRemAddress».«tcpConnRemPort» 
4 = SYN RCVD, 5  ESTABLISHED,6 = FIN. WAIT, 
7 FIN WAIT 2, 8 = CLOSE WAIT, 9 = LAST ACK, 
imp laddr | 本 地 TP 地 直 
king 
图 24-7 TCP 监 听 表 : tcpTable 中 的 变量 
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第 一 个 PCB 变 量 (t_state) 来 自 TCP 控 制 块 ( 图 24-13)， 其 他 四 个 变量 来 自 Internet PCB 
(图 22-4)。 


24.3 TCP 的 protosw 结 构 


图 24-8 列 出 了 TCP protosw 结 构 的 成 员 变量 ， 它 定义 了 TCP 协 议 与 系统 内 其 他 协议 则 的 


交互 接口 。 


24.4 


pr type 

pr domain 
pr ptotocol 
pr flags 


pr input 


pr output 

pr ctlinput 
pr ctloutput 
pr usrreg 

pr init 

pr fasttimo 
pr slowtimo 
pr drain 


pr sysctl 


TCP 的 首部 


SOCK STREAM 
&inetdomain 
IPPROTO TCP(6) 
PR CONNREQUIRED|PR WANTRCVD 
tcp input 

0 

tcp ctlinput 
tcp ctloutput 
tcp usrreq 
tep ilr 

tcp fasttimo 
tcp slowtimo 
tcp drain 

0 





[24-8 TCP protosw 结 构 


TCP 提 供 字 市 流传 输 服 务 

TCP 属 于 Internet 协 议 族 
填充 IP 首 部 的 ip_P 字 段 

揪 口 层 标志 ， 协 议 处 理 中 忽略 
从 IP 层 接收 消息 

TCP 协 议 忽略 该 成 员 变 量 

处 理 ICMP 错 误 的 控制 输入 函数 
在 进程 中 响应 管理 请 求 

在 进程 中 响应 通信 请 求 
TCP 初 始 化 

快 超时 函数 ， 每 200 ms 调用 一 次 
慢 超 时 函数 ， 每 500 ms 调用 一 次 
内 核 mbuf 耗 尽 时 调用 

TCP 协 议 忽 略 该 成 员 变 量 


tcphdr 结 构 定义 了 TCP 首 部 。 图 24-9 给 出 了 tcphaz 结 构 的 定义 ， 图 24-10 摘 述 了 TCP 


首部 。 


40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
91 
52 
53 
54 
35 
56 
57 


tcp.h 
struct tcphdr ( 
u short th sport; /* source port */ 
u short th.dport; /* destination port */ 
tcp seq th, seq; /* sequence number */ 
tcp seq th ack; /* acknowledgement number */ 
#1if BYTE ORDER == LITTLE ENDIAN 
UU cbar th. x2:4, /* (unused) */ 
th off:4; /* data offset */ 
Kendif 
#if BYTE ORDER == BIG ENDIAN 
u char th off:4, /* data offset */ 
th x2:4; /* (unused) */ 
#endif 
u_char th_flags; /* ACK, FIN, PUSH, RST; SYN; URG */ 
u_short th_win; /* advertised window */ 
u_short th_sum; /* checksum */ 
u short th urp; /* urgent offset */ 
: tcp.h 


图 24-9 tcphdr 结 构 
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0 15 16 31 


th, sport th, dport 
16 位 源 端 口号 16 位 目的 端口 号 
th seq 
32 位 序号 
th ack 
32 位 确认 序号 
th off th x2 UJA RISIF "enm 
4 位 保留 R|C|S|S|Y|I ji 
首部 长 度 (6 位 ) GIK TININ 16 位 窗口 大 小 
th sum th urp 
16 位 TCP 检 验 和 16 位 紧急 数据 偏 移 量 


选项 (如 果 有 ) 


数据 (如 果 有 ) 


图 24-10 TCP 首 部 及 可 选 数 据 










大 多 数 RFC 文 档 、 相 关 书 籍 ( 包 括 卷 1) 和 接 下 来 要 讨论 的 TCP 实 现代 码 ， 都 把 
th _urp 称 为 “紧急 指针 ”(urgent pointer)。 更 准确 的 名 称 应 该 是 “紧急 数据 偏 移 量 ” 
(urgent offset)， 因 为 这 个 字段 给 出 的 16 位 无 符号 整数 值 , 与 th _ seg 序号 字段 相 加 后 ， 
得 到 发 送 的 紧急 数据 最 后 一 个 八 位 组 的 32 位 序号 (关于 该 序号 应 该 是 紧急 数据 最 后 一 
个 字 节 的 序号 ， 或 者 是 紧急 数据 结束 后 的 第 一 个 字 节 的 序号 ， 一 直 存 在 着 争议 。 但 
就 我 们 目前 的 讨论 而 言 ， 这 一 点 无 关 紧 要 )。 图 24-13 中 ，TCP 代 码 把 保存 紧急 数据 最 
后 一 个 八 位 组 的 32 位 序号 的 snd up 正确 地 称 为 “紧急 数据 发 送 指 针 ”。 如 果 将 TCP 
首部 的 16 位 偏 移 量 也 称 为 “指针 ， 容 易 引 起 误解 。 在 习题 26.6 中 ， 我 们 重申 了 “ 紧 
急 指 针 ” 和 “紧急 数据 偏 移 量 ” 间 的 区 别 。 


TCP 首 部 中 4 位 的 首部 长 度 、 接 着 的 6 位 的 保留 字段 和 6 位 的 码 元 标志 ， 在 C 结 构 中 定义 为 
两 个 4 位 的 位 字段 和 紧 跟 的 一 个 8 位 字 节 。 为 了 处 理 两 个 位 字段 在 8 位 字 节 中 的 存放 次 序 ，C 代 
码 根 据 不 同 的 主机 字 节 存储 顺序 使 用 了 #ifdef 语 句 。 

还 请 注意 ，TCP 中 称 4 位 的 th_off 为 “首部 长 度 ”， 而 C 代 码 中 称 之 为 “数据 偏 移 量 ”。 两 
种 名 称 都 正确 ， 因 为 它 表示 TCP 首 部 的 长 度 ， 包 括 可 选项 ， 以 32 位 为 单位 ， 也 就 是 指向 用 户 
数据 第 一 个 字 节 的 偏 移 量 。 

th_flags 成 员 变量 包括 6 个 码 元 标志 位 ， 通 过 图 24-11 中 定义 的 名 称 读 写 。 

Net/3 中 ，TCP 首 部 通常 意味 着 “IP 首 部 + TCP 首 部 ”。tcp_input 处 理 收 到 的 IP 数 据 报 
和 tcp_output 构 造 待 发 送 的 IP 数 据 报时 都 采用 了 这 一 思想 。 图 24-12 中 给 出 了 tcpiphdzr 结 
构 的 定义 ， 形 式 化 地 描述 了 组 合 的 IPTCP 首 部 。 

38-58 图 23-19 给 出 的 ipovly 结 构 定义 了 20 字 节 长 度 的 卫 首 部。 通过 前 面 章节 的 讨论 可 知 ， 
尽管 长 度 相 同 (20 字 市 )， 但 这 个 结构 并 不 是 一 个 真正 的 IP 首 部 。 
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TH_ACK 确认 序号 (th_ack) 有 效 
TH FIN 发 送 方 字 节 流 结束 


TH PUSH | 接收 方 应 该 立即 将 数据 提交 给 应 用 程序 
TH RST 连接 复位 

TH SYN 序号 同步 (建立 连接 ) 

TH URG 紧急 数据 偏 移 量 (th_urp) 有 效 





图 24-11 th flags 值 


: tcpip.h 
38 struct tcpiphdr ( 
39 Struct ipovly ti. i; /* overlaid ip structure */ 
40 struct tcphdr ti t; /* tcp header */ 
4l ); 
42 4define ti next ti 1,1hÀ next 
43 #define ti_prev ti i.ih prev 
44 #Qefine ti x1 EX 1.23 441 
45 &define ti pr Ei i.ih. pr 
46 #define ti len ti i.ih len 
47 #define ti src ti reih Sre 
48 #define ti dst EX I.1Hh Qut 
49 £&define ti sport ti t.th sport 
50 $define ti dport ti t.th dport 
51 #define ti_seq ti_t.th_seq 
52 #define ti_ack ti t.th.ack 
53 #define ti x2 Eli b.Eh x 
54 #define ti. off Ei t.Eh oft 
55 #define ti flags ti t.th flags 
56 #define ti win ti t.th win 
57 $define ti sum EI t-t- SUM 
58 #define ti urp bi t.th urp 

tcpip.h 


图 24-12 tcpiphdr 结 构 定 义 : 组 合 的 IP/TCP 首 部 


24.5 TCP 的 控制 块 


在 图 22-1 中 我 们 看 到 ， 除 了 标准 的 Internet PCB 外 ，TCP 还 有 自己 专用 的 控制 块 (tcpcb 结 
构 ) 而 UDP 则 不 需要 专用 控制 块 ， 它 的 全 部 控制 信息 都 已 包含 在 Internet PCB 中 。 

TCP 控 制 块 较 大 ， 需 占用 140 字 市 。 从 图 22-1 中 可 看 到 ，Internet PCB 与 TCP 控 制 块 彼此 对 
应 ， 都 带 有 指向 对 方 的 指针 。 图 24-13 给 出 了 TCP 控 制 块 的 定义 。 


tcp_var.h 
41 struct tcpcb ( 
42 struct tcpiphdr *seg next;  /* reassembly queue of received segments */ 
43 struct tcpiphdr *seg prev;  /* reassembly queue of received segments */ 
44 short t state; /* connection state (Figure 24.16) */ 
45 short t timer[TCPT NTIMERS]; /* tcp timers (Chapter 25) */ 
46 short t.rxtsbift; /* log(2) of rexmt exp. backoff */ 
47 short t rxtcur; /* current retransmission timeout ($4ticks) */ 
48 short t dupacks; /* 4&consecutive duplicate ACKs received */ 
49 u short t maxseg; /* maximum segment size to send */ 
50 char t force; /* 1 if forcing out a byte (persist/OOB) */ 
51 u short t, flags; /* (Figure 24.14) */ 


24-13 tcpcb 结 构 : TCP 控 制 块 
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struct tcpiphdr *t, template; 
struct inpcb *t inpcb; py* 
/* 


/* skeletal packet for transmit * 
back pointer to internet PCB */ 


* The following fields are used as in the protocol specification. 


* See RFC783, Dec. 1981, page 21. 
* y 
/* send sequence variables */ 


send unacknowledged */ 

send next */ 

send urgent pointer */ 

window update seg seq number */ 
window update seg ack number */ 
initial send sequence number */ 
send window */ 


receive window */ 

receive next */ 

receive urgent pointer */ 

initial receive sequence number */ 


advertised window by other end */ 


tcp seq snd, una; 6T 
tcp seq snd nxt; /* 
tcp seq snd up; y 
tcp seq snd wl1l; y * 
tcp seq snd w12; y 
tcp seq iss; e 
u_long snd_wnd; ds 
/* receive sequence variables */ 
u long rcv wnd; "iem 
tcp seq rcv nxt; [* 
tcp seq rcv up; [* 
tcp seq irs; dd 
/* 
* Additional variables for this implementation. 
ut d 
/* receive variables */ 
tcp seq rcv, adv; /* 
/* retransmit variables */ 
tcp seq snd max; p" 


highest sequence number sent; 


* used to recognize retransmits */ 
source quench, retransmit after loss) */ 


/* congestion control (slow start, 


congestion-controlled window */ 
snd cwnd size threshhold for slow 
exponential to linear switch */ 


* transmit timing stuff. See below for scale of srtt and rttvar. 


u long  snd cwnd; p% 
u_long snd_ssthresh; p 
* 
/* 
* "Variance" is actually smoothed 
gi 
short t idle; "isa 
short t rtbs; y^ 
tcp seq t rtseq; p" 
short t. srtt; g* 
short t. rttvar; A 
u short t rttmin; ^s 
u long max sndwnd; y 
/* out-of-band data */ 
char t oobflags; pt 
char t. iobc; pr 
short t_softerror; y* 
/* RFC 1323 variables */ 
u_char  snd scale; p^ 
u_char rcv. scale; p= 
u_char request_r_scale; p* 


u char requested s scale;  /* 


u long ts recent; p 

u long ts recent age; pT 

tcp seq last ack sent; p* 
); 


difference. 


inactivity time */ 

round-trip time */ 

Sequence number being timed */ 
smoothed round-trip time */ 
variance in round-trip time */ 
minimum rtt allowed */ 

largest window peer has offered */ 


TCPOOB HAVEDATA, TCPOOB HADDATA */ 


/ 


start 


input character, if not SO OOBINLINE */ 


possible error not yet reported */ 


Scaling for send window (0-14) */ 
scaling for receive window (0-14) 
our penàing winaow scale */ 
peer's pending window scale */ 


timestamp echo data */ 
when last updated */ 
sequence number of last ack field 


Kdefine intotcpcb(ip) ((struct tcpcb *)(ip)-»inp ppcb) 
#define sototcpcb(so) (intotcpcb(sotoinpcb(so))) 


图 24-13 (£x) 


sy 


"Z 


tcp_var.h 
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现在 暂 不 讨论 上 述 成 员 变 量 的 具体 含义 ， 在 后 续 代 码 中 遇 到 时 再 详细 分 析 。 
图 24-14 列 出 了 t_flags 变 量 的 可 选 值 。 


TF ACKNOW 立即 发 送 ACK 

TF DELACK 延迟 发 送 ACK 

TF NODELAY 立即 发 送 用 户 数 据 ， 不 等 待 形 成 最 大 报 文 段 (禁止 Nagle 算 法 ) 
TF NOOPT 不 使 用 TCP 选 项 ( 永 不 填充 TCP 选 项 字段 ) 


TF SENTFIN FIN 已 发 送 

TF RCVD SCALE | 对 端 在 SYN 报 文中 发 送 窗 口 变化 选项 时 置 位 
TF RCVD TSTMP | 对 端 在 SYN 报 文中 发 送 时 间 珊 选项 时 置 位 
TF REQ SCALE | 已 经 /将 要 在 SYN 报 文中 请 求 窗口 变化 选项 
TF REQ TSTMP | 已 以 /将 要 在 SYN 中 请 求 时 间 惟 选项 





图 24-14 t flags 取 值 


24.6 TCP 的 状态 变迁 图 


TCP 协 议 根 据 连 接 上 到 达 报 文 的 不 同类 型 采取 相应 动作 ， 协 议 规程 可 抽象 为 图 24-15 所 示 的 
有 限 状 态 变 迁 图 。 读 者 在 本 书 的 文 前 插页 也 可 找到 这 张 图 ， 以 便 在 阅读 有 关 TCP 的 章节 时 参考 。 

图 中 的 各 种 状态 变迁 组 成 了 TCP 有 限 状 态 机 。 尽 管 TCP 协 议 允 许 从 LISTEN 状 态 直接 变迁 
到 SYN_SENT 状 态 ， 但 使 用 SOCKET API 编 程 时 这 种 变迁 不 可 实现 (调用 1isten 后 不 可 以 调 
用 connect)。 

TCP 控 制 块 的 成 员 变 量 t_state 保 存 连 接 的 当前 状态 ， 可 选 值 如 图 24-16 所 示 。 

图 中 还 定义 了 tcp_outflags 数 组 ， 保 存 处 于 对 应 连接 状态 时 tcp_output 将 使 用 的 输 

图 24-16 还 列 出 了 与 符号 常量 相对 应 的 数值 ， 因 为 在 代码 中 将 利用 它们 之 间 的 数值 关系 。 
例如 ， 有 下 面 两 个 宏 定 义 : 


#define TCPS HAVERCVDSYN(s) ((s)>=TCPS SYN RECEIVED) 
#define TCPS HAVERCVDFIN(s) ((s)>=TCPS TIME WAIT) 


类 似 地 ， 连 接 未 建立 时 ， 即 t_state 小 于 TCPS ESTABLISHEDH[, tcp notify 处 理 
ICMP 差 错 的 方式 也 不 同 。 


TCPS_HAVERCVDSYN 的 命名 是 正确 的 ， 但 TCPS_HAVERCVDFIN 则 可 能 引起 误 
解 ， 因 为 在 CLOSE_WAIT、CLOSING 和 LAST_ACK 状 态 也 会 收 到 FIN。 我 们 将 在 第 
29 章 中 遇 到 该 宏 。 
半 关 闭 
当 进程 调用 shutdown 且 第 二 个 参数 设 为 1 时 ， 称 为 “ 半 关 闭 ”。TCP 发 送 FIN， 但 允许 进 
程 在 同一 端口 上 继续 接收 数据 ( 卷 1 的 18.5 节 中 举例 介绍 了 TCP 的 半 关 闭 )。 
例如 ， 尽 管 图 24-15 中 只 在 ESTABLISHED 状 态 标 注 了 “数据 传输 ”， 但 如 果 进 程 执行 


半 关 闭 "， 则 连接 变迁 到 FIN_WAIT_1 状 态 和 其 后 的 FIN_WAIT_2 状 态 ,在 这 两 个 特定 状态 中 ， 
进程 仍然 可 以 接收 数据 。 
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appl 被 动 打开 


send: < 无 > 


send: SYN, ACK 


STABLISHED 
数据 传输 状态 


主动 关闭 
— 99 正常 情况 下 ， 客 户 端的 状态 变迁 
-220 正 常情 况 下 ， 服 务 器 端的 状态 变迁 
appl: 应 用 程序 执行 操作 引起 的 状态 变迁 
recv: 接收 报 文 引起 的 状态 变迁 
send: 状态 变迁 中 发 送 的 报 文 


send: ACK ! 





图 24-15 TCP 状 态 变 迁 图 


24.7 TCP 的 序号 


CLOSE_WAIT | 


appli 关闭 
send: FIN 


LAST ACK : 
send: < 无 > 


被 动 关 闭 


TCP 连 接 上 传输 的 每 个 数据 字 节 ， 以 及 SYN、EFIN 等 控制 报 文 都 被 赋予 一 个 32 位 的 序号 。 
TCP 首 部 的 序号 字段 (图 24-10) 填 充 了 报 文 段 第 一 个 数据 字 节 的 32 位 的 序号 ， 确 认 序 号 字段 填 
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充 了 发 送 方 市 望 接收 的 下 一 序号 ， 确 认 已 正确 接收 了 所 有 序号 小 于 等 于 确认 序号 减 1 的 数据 字 
让 。 换 言 之 ， 确 认 序 号 是 ACK 发 送 方 等 待 接收 的 下 一 序号 。 只 有 当 报 文 首部 的 ACK 标 志和 置 
时 ， 确 认 序号 才 有 效 。 读 者 将 看 到 ， 除 了 在 主动 打开 首次 发 送 SYN 时 (SYN_SENT 状 态 , 2 
图 24-16 中 的 tcp_outflags [2] ) 或 在 某 些 RST 报 文 段 中 ，ACK 标 志 总 是 被 置 位 的 。 


Bh miren o 区 


| TH RST|TH ACK 
ep 0 
已 发 送 SYN( 主 动 打开 ) TH SYN 
已 发 送 并 接收 SYN ;等待 ACK TH SYN|TH ACK 
连接 建立 (数据 传输 ) TH ACK 
已 收 到 FIN ， 等 待 应 用 程序 关闭 TH ACK 
已 关闭 ， 发 送 FIN， 等 待 ACK 和 FIN TH FIN| TH ACK 
同时 关闭 ， 等 待 ACK TH FIN|TH ACK 
收 到 的 FIN 已 关闭 ， 等 待 ACK TH _ FIN| TH ACK 
已 关闭 ， 等 待 FIN TH ACK 
主动 关闭 后 2MSL 等 待 状态 TH ACK 


TCPS CLOSED 
TCPS LISTEN 
TCPS SYN SENT 
TCPS SYN RECEIVED 
TCPS ESTABLISHED 
TCPS CLOSE WAIT 
TCPS FIN WAIT 1 
TCPS CLOSING 

TCPS LAST ACK 
TCPS FIN WAIT 2 
TCPS TIME WAIT 


0 
l 
2 
3 
4 
5 
6 
7 
8 
9 


一- 
© 





图 24-16 t_state É 


由 于 TCP 连 接 是 全 双 工 的 ， 每 一 端 都 必须 为 两 个 方向 上 的 数据 流 维护 序号 。TCP 控 制 块 中 
(图 24-13) 有 13 个 序号 : 8 个 用 于 数据 发 送 (发 送 序号 空间 )，5 个 用 于 数据 接收 (接收 序号 空间 )。 

图 24-17 给 出 了 发 送 序号 空间 中 4 个 变量 间 的 关系 : snda_wnd、snd_una、snad_nxt 和 
snd_max。 这 个 例子 列 出 了 数据 流 的 第 1~11 字 节 。 


snd wnd = 6: 提供 的 窗口 


(由 接收 方 通告 ) 
可 用 窗口 i 
1 2 3 4 5 6 7 8 9 10 11 
无 法 发 送 直 
一 发 送 尚 未 确认 ————————» 到 窗口 移动 
发 送 并 已 确认 i p TORS 
snd_una = 4 snd nxt 7 
最 早 的 未 确认 下 一 个 发 送 序号 
过 的 序号 
snd max = 了 7 
最 大 发 送 序号 
图 24-17 发 送 序号 空间 举例 
一 个 有 效 的 ACK 序 号 必须 满足 : 


snd una < 确认 序号 <= snd max 


图 24-17 的 例子 中 ， 一 个 有 效 ACK 的 确认 序号 必须 是 5、6 或 7。 如 果 确 认 序号 小 于 或 等 于 
snd_una， 则 是 一 个 重复 的 ACK。 它 确认 了 已 确认 过 的 八 位 组 ， 否 则 snd_una 不 会 递增 超过 
那些 序号 。 
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tcp_output 中 有 多 处 用 到 下 面 的 测试 ， 如 末 正 发 送 的 是 重 传 数据 ， 则 表达 式 为 真 : 


snd nxt < snd max 


图 24-18 给 出 了 图 24-17 中 连接 的 另 一 端 : 接收 序号 空间 ， 图 中 假定 还 未 收 到 序号 为 4、5、 
6 的 报 文 ， 标 出 了 三 个 变量 rcv nxt, rcv wnd 和 和 rcv adv, 


rcv_wnd = 6: 接收 窗口 


(向 发 送 方 通 告 ) 
1 2 3 4 5 6 7 8 9 10 11 
TCP 已 确认 的 序号 
不 允许 接收 的 序号 
rcv_nxt a 4 rcv adv = 10 
下 一 个 接收 序号 通告 序号 最 大 值 加 1 


图 24-18 接收 序号 空间 举例 


如 果 接 收报 文 段 中 携带 的 数据 落 在 接收 窗口 内 ， 则 该 报 文 段 是 一 个 有 效 报 文 段 。 换 言 之 ， 
下 面 两 个 不 等 式 中 至 少 要 有 一 个 为 真 。 

rcv nxt <=- 报 文 段 起 始 序 号 < rcv nxt + rcv wnd 

rcv nxt <= 报 文 段 终止 序号 < rcv nxt + rcv wnd 


报 文 段 起 始 序 号 就 是 TCP 首 部 的 序号 字段 ，ti_seq。 终 止 序号 是 序号 字段 加 上 TCP 数 据 
长 度 后 减 1。 
例如 ， 图 24-19 中 的 TCP 报 文 段 携带 了 图 24-17 中 发 送 的 三 个 字 市 ， 序 号 分 别 是 4、5 和 6。 


-= 一 一 一 一 一 一 68 字 节 IP 数 据 报 ee 
[omm [mem c [99 [IT 


20*r-d5 8 ] li 


图 24-19 TCP 报 文 段 在 IP 数 据 报 中 传输 


假定 IP 数 据 报 中 有 8 字 市 的 IP 任 选项 和 12 字 市 的 TCP 任 选项 。 图 24-20 列 出 了 各 有 关 变 量 的 
取 值 。 


“IP 首部 +IP 任 选项 长 度 ， 以 32 位 为 单位 (=28 字 节 ) | 以 32 位 为 单位 (=28 字 布 ) 
IP 数 据 报 长 度 ， 以 字 节 为 单位 (20+8 +20+12+3) 


TCP 首 部 +TCP 任 选项 长 度 ， 以 32 位 为 单位 (=32 字 节 ) 
用 户 数据 第 一 个 字 节 的 序号 


ti. go TCP 数 据 的 字 节 数 : ip len-(ip hlx4)-(ti offx4 
用 户 数据 最 后 一 个 字 节 的 序号 : ti_seq+ti_len-l 


图 24-20 图 24-19 中 各 变量 的 取 值 





ti_len 并 非 TCP 首 部 的 字段 ， 而 是 在 对 接收 到 的 首部 计算 检验 和 及 完成 验证 之 后 ， 根 据 
图 24-20 中 的 算式 得 到 的 结果 ， 存 储 到 外 加 的 IP 结 构 中 (图 24-12)。 图 中 最 后 一 个 值 并 不 存储 到 
变量 中 ， 而 十 在 需要 时 直接 从 其 他 值 通 过 计算 得 到 。 
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1. 序号 取 模 运算 

TCP 必 须 处 理 的 一 个 问题 是 序号 来 自 有 限 的 32 位 取 值 空间 : 0-4 294 967 295。 如 果 某 个 
TCP 连 接 传输 的 数据 量 超过 2” 字 节 ， 序 号 从 4 294 967 295 回 绕 到 0， 将 出 现 重 复 序号 。 

即使 传输 数据 量 小 于 23 字 节 ， 仍 可 能 遇 到 同样 的 问题 ， 因 为 连接 的 初始 序号 并 不 一 定 从 0 
开始 。 各 数据 流 方向 上 的 初始 序号 可 以 是 0~4 294 967 295 之 间 的 任何 值 。 这 个 问题 使 序号 复 
杂 化 了 。 例 如 ， 序 号 1 可 能 大 于 序号 4 294 967 295, 

在 tcp.h 中 ，TCP 序 号 定义 为 unsigned long: 


typedef u long tcp seq; 


图 24-21 定 义 了 4 个 用 于 序号 比较 的 宏 。 


- tcp_seq.h 
40 #defijine SEQ LT(a,b) ((int)((a)-(b)) « 0) 
41 #define SEQ LEQ(a,b) ((int)(i(a)-(b)) «e Q) 
42 $define SEQ GT(a,b) ((int)((a)-(b)) » 0) 
43 4&define SEQ GEQ(a,b) ((int)((a)-(b)) >= Q) 
tcp. seq.h 


图 24-21 TCP 序 号 比较 宏 


2. 举例 : 序号 比较 

下 面 这 个 例子 说 明了 TCP 序 号 的 操作 方式 。 假 定 序号 只 有 3 位 ，0~7。 图 24-22 列 出 了 全 部 
8 个 序号 和 相应 的 二 进 制 补 码 (为 求 二 进 制 补 码 ， 将 二 进 制 码 中 的 所 有 0 变 为 1， 所 有 1 变 为 0， 
最 后 再 加 1)。 给 出 补 码 形式 ， 是 因为 a- =a+(b 的 补 码 )。 


110 
101 





0 
1 
2 
3 
4 
5 
6 
了 


图 24-22 3 位 序号 举例 


表 中 最 后 三 栏 分 别 是 0-x、1-x 和 2-x。 在 这 三 栏 中 ， 如 果 定 义 计 算 结 果 是 带 符 号 整数 ( 注 
意图 24-21 中 的 四 个 宏 ， 计 算 结果 全 部 强制 转换 为 nt)， 那么 最 高 位 为 1 表示 值 小 于 0 
(SEQ_LT 宏 )， 最 高 位 为 0 且 值 不 为 0 表示 大 于 0 (SEQ_GT 宏 )。 最 后 三 栏 中 以 横 线 分 隔 开 四 个 负 
值 和 四 个 非 负 值 。 

请 注意 图 24-22 中 的 第 四 栏 (标注 “0 一 x”)， 可 看 出 0 小 于 1、2、3 和 4( 最 高 位 为 1 )， 而 0 大 
于 5、6 和 7( 最 高 位 为 0 且 结 果 非 0)。 图 24-23 显 示 了 这 种 关系 。 


5 6 7 [o] 1 2 3 4 
0 大 于 这 些 序号 0 小 于 这 些 序号 
一 一 一 一生 


图 24-23 3 位 的 TCP 序 号 的 比较 
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图 24-22 中 的 第 五 栏 (1 一 x) 也 存在 类 似 的 关系 ， 如 图 24-24 所 示 。 


6 7 0 2 3 4 


1 大 于 这 些 序 号 1 小 于 这 些 序号 
— > 


Un 


图 24-24 3 位 的 TCP 序 号 的 比较 
图 24-25 是 上 面 两 个 图 的 男 一 种 表示 形式 ， 使 用 圆 环 强调 了 序号 的 回 绕 现象 。 





图 24-25 图 24-23 和 图 24-24 的 另 一 种 表示 形式 


就 TCP 而 言 ， 通 过 序号 比较 来 确定 给 定 序号 是 新 序号 还 是 重 传 序 号 。 例 如 ， 在 图 24-24 的 
例子 中 ， 如 有 果 TCP 正 等 待 的 序号 为 1， 但 到 达 序 号 为 6， 通 过 前 面 介绍 的 计算 可 知 6 小 于 1， 从 而 
判定 这 是 重 传 的 数据 ， 可 予以 丢弃 。 但 如 果 到 达 序 号 为 9， 因为 5 大 于 1，TCP 判 定 这 是 新 数据 ， 
予以 保存 ， 并 继续 等 待 序 号 为 2>、3 和 4 的 八 位 组 (假定 序号 为 5 的 数据 字 落 在 接收 窗口 内 )。 

图 24-26 扩 展 了 图 24-25 中 左边 的 圆 环 ， 用 TCP 32 位 的 序号 替代 了 3 位 的 序号 。 
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图 24-26 与 序号 0 比较 : 采用 32 位 序号 
图 24-26 右 边 的 圆 环 强调 了 32 位 序号 空间 的 一 半 有 23 个 可 用 数字 。 


24.8 tcp init 


系统 初始 化 时 ，domaininit 了 函数 调用 TCP 的 初始 化 尔 数 tcp init (图 24-27)。 

1. 设 定 初始 发 送 序号 

急 始 发 送 序号 tcp_iss 被 初始 化 为 1!。 请 注意 ， 代 码 注 释 指 出 ， 这 是 错误 的 。 后 面 讨论 
TCP 的 “平静 时 间 ”(quite time) 时 ， 将 简单 介绍 这 一 选择 的 原因 。 请 读者 自行 与 图 7-23 中 IP 标 
识 符 的 初始 化 做 比较 ， 后 者 使 用 了 当天 的 时 钟 。 
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a tcp_subr.c 
44 tcp init() 
45 ( 
46 tep i88 = ls /* wrong */ 
47 tcb.inp next - tcb.inp prev - &tcb; 
48 if (max protohdr < sizeof(struct tcpiphdr)) 
49 max protohdr - sizeof(struct tcpiphdr); 
50 if (max linkhdr + sizeof(struct tcpiphdr) > MHLEN) 
< panicí("tcp init" l; 
52 j 
tcp subr.c 


图 24-27 tcp initÁ% 


2. TCP Internet PCB 链 表 初 始 化 

PCB 首 部 (tcb) 的 previous 指 针 和 next 指 针 都 指向 自己 ， 这 是 一 个 空 的 双向 链表 。tcb PCB 
的 其 余 成 员 均 初始 化 为 0( 所 有 未 明确 初始 化 的 全 局 变量 均 设 为 0)。 事 实 上 ， 除 链表 外 ， 在 该 
PCB 首 部 中 只 用 了 一 个 字段 linp_lport: 下 一 个 分 配 的 TCP 临 时 端口 号 。TCP 使 用 的 第 一 个 
临时 端口 号 应 为 1024， 习 题 22.4 的 解答 中 给 出 了 原因 。 

3. 计算 最 大 协议 首部 长 度 

到 目前 为 止 ， 讨 论 过 的 协议 首部 的 长 度 最 大 不 超过 40 字 节 ，max_protohdr 设 为 40( 组 合 
的 IP/TCP 首 部 长 度 ， 不 带 任何 可 选项 )。 图 7-17 定 义 了 该 变量 。 如 果 max_1linkhdr GAHA 
16) 加 40 后 大 于 放 入 单个 mbuf 中 带 首部 的 数据 报 的 数据 长 度 (100 字 节 ， 图 2-7 中 的 MHLEN)， 内 
核 将 告警。 


MSL 和 平静 时 间 的 概念 


TCP 协 议 要 求 如 果 主 机 崩 涡 ， 且 没 能 保存 打开 TCP 连 接 上 最 后 使 用 的 序号 ， 则 重启 后 在 一 
个 MSL(2 分 钟 ， 平 静 时 间 ) 内 ， 不 能 发 送 任何 TCP 报 文 段 。 目 前 ， 基 本 没有 TCP 实 现 能 够 在 系 
统 月 滥 或 操作 员 关 机 时 保存 这 些 信息 。 

MSL 是 最 大 报 文 段 生存 时 间 (maximum segment lifetime)， 指 任何 报 文 段 被 丢弃 前 在 网 络 
中 能 够 存在 的 最 大 时 间 。 不 同 的 实现 可 选择 不 同 的 MSL。 连 接 主 动 关闭 后 ， 将 在 
CLOSE_WAIT 状 态 等 待 2 个 MSL 时 间 ( 图 24-15)。 

RFC 793(Postel 1981c) 建 议 MSL 设 定 为 2 分 钟 ， 但 Net/3 实 现 中 MSL 设 为 30 秒 
(图 25-3 中 定义 的 常量 TCPTV_MSL)。 


如 果 报 文 段 在 网 络 中 出 现 延 迟 ， 协 议会 出 现 问 题 (RFC 793 称 之 为 漫游 重复 (wandering 
duplicate))。 假 定 Net/3 系 统 启 动 时 tcp_iss 置 为 1( 图 24-27)， 经 过 一 段 时 间 ， 在 序号 刚刚 回 绕 
时 系统 崩溃 。 后 面 25.5$ 节 中 将 介绍 ，tcp_iss 每 秒 增 加 128 000， 即 重启 后 需 经 过 9.3 小 时 序号 
才 会 回 绕 。 此 外 ， 每 发 送 一 个 connect ，tcp_iss 将 增加 64 000， 因 此 序号 回 绕 时 间 必 然 早 
于 9.3 小 时 。 下 面 的 例子 说 明了 老 的 报 文 段 怎 样 被 错误 地 发 送 到 现在 的 连接 上 。 

1) 一 个 客户 和 服务 器 建立 了 一 个 连接 。 客 户 的 端口 号 是 1024， 发 送 了 一 个 序号 为 2 的 报 文 
段 。 该 报 文 段 在 传送 途中 陷入 路 径 循环 ， 未 能 到 达 服 务 器 。 这 个 报 文 段 成 为 “漫游 重复 ” 报 
文 段 。 
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2) 客户 重 发 该 报 文 段 ， 序 号 依旧 为 2。 重 发 报 文 段 到 达 服 务 器 。 

3) 客户 关闭 连接 。 

4) d PEL ARA, 

5) 客户 主机 在 骨 溃 后 40 秒 重启 ，TCP 初 始 化 tcp_iss 为 1。 

6) 同一 客户 和 同一 服务 器 之 间 立 即 建立 了 一 条 新 的 连接 ， 使 用 了 同样 的 端口 号 : 客户 端 
口号 为 1024， 服 务 絮 方 依然 是 其 预知 的 端口 号 。 客 户 发 送 的 SYN 中 初始 序号 置 为 !。 这 条 新 的 
使 用 同样 端口 对 的 连接 称 为 原 有 连接 的 化 届 (incarnation)。 

7) 步骤 1 中 的 漫游 重复 报 文 段 最终 到 达 服 务 器 ， 并 被 认为 是 新 建 连接 中 的 合法 报 文 段 ， 尽 
党 它 实 际 上 属于 原 有 连接 。 

图 24-28 列 出 了 上 述 步骤 发 生 的 时 间 顺 序 。 


步骤 1 客户 发 送 序号 为 2 的 数据 报 文 (成 为 漫游 报 文 ) -一 一 一 -一 一 一 » 
- 客户 重 传 序号 为 2 的 数据 报 文 ， 到 达 服 务 器 
3 客户 关闭 了 与 服务 器 的 连接 
4 客户 端 主机 崩溃 


40| fh 


5 客户 主机 重启 ，ISS 设 定 为 1 
6—L— 客户 服务 器 建立 原 有 连接 的 化 身 
7—L 步 又 1 的 漫游 重复 报 文 到 达 服务 器 LLL y 


时 间 
图 24-28 示例 : 旧 报 文 段 到 达 原 有 连接 的 化 身 


即使 系统 重启 后 ，TCP 通 过 当前 时 钟 计算 ISS， 问 题 同 样 存在 。 无 论 原 有 连接 的 ISS 设 为 
多 少 ， 由 于 序号 会 回 绕 ， 完 全 有 可 能 重启 后 新 建 连接 的 ISS 接 近 于 重启 前 原 有 连接 最 后 使 用 的 
序号 。 

除了 保存 重启 前 所 有 已 建 连接 的 序号 ， 解 决 这 个 问题 的 唯一 方法 就 是 重启 后 TCP 在 MSL 
内 保持 平静 (不 发 送 任何 报 文 段 )。 尽 管 问 题 有 可 能 出 现 ， 但 绝 大 多 数 TCP 中 并 未 实现 相应 的 解 
决 方法 ， 因 为 多 数 主机 仅 重 局 时 间 就 要 长 于 MSL。 


24.9 小 结 


本 章 概要 介绍 了 接 下 来 的 6 章 中 将 要 讨论 的 TCP 源 代码 。TCP 为 每 条 连接 建立 自己 的 控制 
Wk, 保存 该 连接 的 所 有 变量 和 状态 信息 。 

定义 了 TCP 的 状态 变迁 图 ，TCP 在 哪些 条 件 下 从 一 个 状态 变迁 到 另 一 个 状态 ， 每 次 变迁 过 
程 中 发 送 和 接收 了 哪些 报 文 段 。 状 态 变 迁 图 还 显示 了 连接 建立 和 终止 的 过 程 。 在 后 续 TCP 讨 
论 中 会 经 和 常 引用 该 图 。 

TCP 连 接 上 传输 的 每 个 数据 字 市 都 有 相应 的 序号 ， TCP 在 连接 控制 块 中 维护 多 个 序号 ， 有 
些 用 于 发 送 ， 有 些 用 于 接收 (TCP 工 作 于 全 双 工 方式 )。 由 于 序号 来 自 有 限 的 32 位 空间 ， 会 从 最 
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大 值 回 绕 到 0。 本 章 解 释 了 如 何 使 用 小 于 和 大 于 测试 来 比较 序号 ， 在 后 续 的 TCP 代 码 中 将 不 断 
遇 到 序号 的 比较 。 

最 后 介绍 了 最 简单 的 TCP 函 数 ，tcp_init， 完 成 对 Internet PCB 的 TCP 链 表 的 初始 化 。 
此 外 ， 还 讨论 了 初始 发 送 序号 的 选取 问题 。 


习题 


24.1 研究 图 24-5 中 的 统计 数据 ， 计 算 每 条 连接 上 发 送 和 接收 的 平均 字 市 数 。 
24.2 在 tcp_init 中 ， 内 核 告警 是 否 合理 ? 
24.3 执行 hetstat -a， 了 解 你 的 系统 当前 有 多 少 个 活跃 的 TCP 端 点 。 
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25.1 引言 


从 本 章 起 ， 我 们 开始 详细 讨论 TCP 的 实现 代码 ， 首 先 熟 悉 一 下 在 绝 大 多 数 TCP 函 数 里 都 会 
遇 到 的 各 种 定时 器 。 

TCP 为 每 条 连接 建立 了 七 个 定时 器 。 按 照 它 们 在 一 条 连接 生存 期 内 出 现 的 次 序 ， 人 简要 介 
绍 如 下 。 

1)“ 连 接 建 立 (connection establishment)” 定 时 器 在 发 送 SYN 报 文 段 建立 一 条 新 连接 时 启 
动 。 如 果 没 有 在 75 秒 内 收 到 响应 ， 连 接 建立 将 中 止 。 

2)“ 重 传 (retransmission)” 定 时 器 在 TCP 发 送 数 据 时 设 定 。 如 果 定 时 绒 已 超时 而 对 端的 确 
认 还 未 到 达 ，TCP 将 重 传 数 据 。 重 传 定 时 器 的 值 ( 即 TCP 等 待 对 端 确认 的 时 间 ) 是 动态 计算 的 ， 
取决 于 TCP 为 该 连接 测量 的 往返 时 间 和 该 报 文 段 已 被 重 传 的 次 数 。 

3) "uiEjRACK(delayed ACK)” 定 时 器 在 TCP 收 到 必须 被 确认 但 不 需要 马上 发 出 确认 的 数 
据 时 设 定 。TCP 等 待 200 ms 后 发 送 确 认 响 应 。 如 果 ， 在 这 200 ms 内 ， 有 数据 要 在 该 连接 上 发 
送 ， 延 迟 的 ACK 响 应 就 可 随 着 数据 一 起 发 送 回 对 端 ， 称 为 撒 帝 确认 。 

4)“ 持 续 (persist )” 定 时 器 在 连接 对 端 通告 接收 窗口 为 0%， 阻 止 TCP 继 续 发 送 数 据 时 设 定 。 
由 于 连接 对 端 发 送 的 窗口 通告 不 可 靠 ( 只 有 数据 才 会 被 确认 ，ACK 不 会 被 确认 )， 人 允许 TCP 继 续 
发 送 数据 的 后 续 窗 口 更 新 有 可 能 丢失 。 因 此 ， 如 果 TCP 有 数据 要 发 送 ， 但 对 病 通 告 接 收 窗口 
为 0， 则 持续 定时 器 启动 ， 超 时 后 向 对 端 发 送 1 字 布 的 数据 ， 判 定 对 端 接收 窗口 是 否 已 打开 。 
与 重 传 定时 器 类 似 ， 持 续 定时 器 的 值 也 是 动态 计算 的 ， 取 决 于 连接 的 往返 时 间 ， 在 5 秒 到 60 秒 
— 

)“ 保 活 (keepalive)” 定 时 器 在 应 用 进程 选取 了 插口 的 SO_KEEPRALIVE 选 项 时 生效 。 如 
Sedis X PRESE REZ, REER ARE, [R12] si 32s XE PED DUI TIC XC E, IRIE W Vim 
响应 。 如 果 收 到 了 期 待 的 响应 ，TCP 可 确定 对 端 主机 工作 正常 ， 在 该 连接 再 次 空闲 超过 2 小 时 
之 前 ，TCP 不 会 再 进行 保 活 测试 。 如 果 收 到 的 是 其 他 响应 ，TCP 可 确定 对 端 主机 已 重启 。 如 
果 连 续 若 干 次 保 活 测试 都 未 收 到 响应 ，TCP 就 假定 对 端 主机 已 月 溃 ， 尽 管 它 无 法 区 分 是 主 
机 故障 (例如 ， 系 统 有 崩溃 而 尚未 重启 )， 还 是 连接 故障 (例如 ， 中 间 的 路 由 如 发 生 故 障 或 电话 线 
Wr T). 

6) FIN_WAIT_2 定 时 器 。 当 某 个 连接 从 FIN_WAIT_1 状 态 变 迁 到 FIN_WAIT_2 状 态 ( 图 24-15)， 
并 且 不 能 再 接收 任何 新 数据 时 (意味 着 应 用 进程 调用 了 close， 而 非 shutdown， 没 有 利用 
TCP 的 半 关 闭 功 能 )，FIN_WAIT_2 定 时 器 启动 ， 设 为 10 分 钟 。 定 时 器 超时 后 ， 重 新 设 为 75 秒 ， 
第 二 次 超时 后 连接 被 关闭 。 加 入 这 个 定时 器 的 目的 是 为 了 避免 如 采 对 靖 一 直 不 发 送 FIN ， 某 个 
连接 会 永远 滞留 在 FIN_WAIT_2 状 态 。 

7) TIME_WAIT 定 时 器 ， 一 般 也 称 为 2MSL 定 时 器 。2MSL 指 两 倍 的 MSL 24.87 E X. BJ Hx 
大 报 文 段 生存 时 间 。 当 连接 转移 到 TIME_WAIT 状 态 ， 即 连接 主动 关闭 时 ， 定 时 左 局 动 。 卷 1 
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的 18.6 节 详细 说 明了 需要 2MSL 等 待 状态 的 原因 。 连 接 进 入 TIME_WAIT 状 态 时 ， 定 时 器 设 定 
为 1 分 钟 (Net/3 选 用 30 秒 的 MSL)， 超 时 后 ，TCP 控 制 块 和 Internet PCB 被 删除 ， 端 口号 可 重新 
使 用 。 

TCP 包 括 两 个 定时 器 函数 : 一 个 函数 每 200 ms 调用 一 次 (快速 定时 器 )， 男 一 个 函数 每 500 ms 
调用 一 次 ( 慢 速 定时 器 )。 延 迟 ACK 定 时 器 与 其 他 6 个 定时 器 有 所 不 同 : 如 果 某 个 连接 上 设 定 了 延 
迟 ACK 定 时 器 ， 那 么 下 一 次 200 ms 定时 器 超时 后 ， 延 迟 的 ACK 必 须 被 发 送 (ACK 的 延迟 时 间 必 
须 在 0~200 ms 之 间 )。 其 他 的 定时 器 每 500 ms 递减 一 次 ， 计 数 器 减 为 0 时 ， 就 触发 相应 的 动作 。 


25.2 代码 介 绍 


当 某 个 连接 的 TCP 控 制 块 中 的 TF_DELACK 标 志 ( 图 24-14) 置 位 时 ， 人 允许 该 连接 使 用 延迟 
ACK 定 时 器 。TCP 控 制 块 中 的 t timer 数 组 包括 4 个 (TCPT NTIMERS) 计 数 器 ， 用 于 实现 其 
他 的 6 个 定时 絮 。 图 25-1 列 出 了 数组 的 索引 。 下 面 人 简单 地 介绍 这 6 个 计数 如 是 如 何 实 现 除 延 述 
ACK 定 时 右 外 的 其 余 6 个 定时 器 的 。 


TCPT REXMT 重 传 定时 器 


TCPT PERSIST RESET es 
TCPT KEEP 保 活 定时 右 或 连接 建立 定时 器 
TCPT 2MSL 2MSL 定 时 器 或 FIN_WAIT_2 定 时 器 





图 25-1 t timer 数组 索引 


t_t 上 imez 中 的 每 条 记录 ， 保 存 了 定时 器 的 剩余 值 ， 以 300 ms 为 计时 单位 。 如 果 等 于 零 ， 
则 说 明 对 应 的 定时 器 没有 设 定 。 由 于 每 个 定时 器 都 是 短 整 型 ， 所 以 定时 器 的 最 大 值 只 能 设 定 
为 16 383.5 秒 ， 约 为 4.5 小 时 。 

请 注意 ， 图 25-1 中 利用 4 个 “定时 计数 器 ”实现 了 6 个 TCP“ 定 时 器 ”， 这 是 因为 有 些 定 时 
器 彼此 间 是 互 斥 的 。 下 面 我 们 首先 区 分 一 下 计数 器 与 定时 器 。TCPT_KEEP 计 数 器 同时 实现 了 
保 活 定时 器 和 连接 建立 定时 器 ， 因 为 这 两 个 定时 器 永远 不 会 同时 出 现在 同一 条 连接 上 。 类 似 
地 ，2MSL 定 时 器 和 FIN WAIT 2 定时 器 都 由 TCPT 2MSL 计 数 器 实现 ， 因 为 一 条 连接 在 同一 
时 间 内 只 可 能 处 于 其 中 的 一 种 状态 。 图 25-2 的 第 一 行 小 结 了 7 个 TCP 定 时 器 的 实现 方式 ， 第 二 


建 连 重 传 “| 延迟 ACK| ”持续 保 活 FIN. 2MSL 
定时 器 | 定时 器 | 定时 器 | 定时 器 | 定时 器 | WAIT 2 


ud t timer[TCPT REXMT] | REXMT] 

t timer[TCPT PERSIST)] 
t timer[TCPT KEEP] 

t timeri[(TCPT 2MSI] 

t flags & TF. DELACK 


tcp. keepidle (2 小 时 ) 
tcp keepintvl (75 秒 ) 
tcp maxidle (10 分 钟 ) 


2 * TCPTV MSL (60 种 ) 
TCPTV KEEP INIT (75b) 


图 25-2 七 个 TCP 定 时 器 的 实现 
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意 ， 有 2 个 全 局 变量 同时 被 多 个 定时 器 使 用 。 前 面 已 讨论 过 ， 延 迟 ACK 定 时 器 直接 受 控 于 TCP 
的 200 ms 定时 器 ， 在 本 章 后 续 部 分 将 讨论 其 他 2 个 定时 絮 的 时 间 长 度 是 如 何 设 定 的 。 

图 25-3 列 出 了 Net/3 实 现 中 基本 的 定时 如 取 值 。 


500 ms 的 fü xh 
时 钟 滴答 数 | 


MSL， 最 大 报 文 段 生存 时 间 


TCPTV PERSMIN 10 持续 定时 器 最 小 值 
120 持续 定时 器 最 大 值 
TCPTV KEEP INIT | 150 75 连接 建立 定时 器 取 值 
TCPTV KEEP IDLE | 14400 第 一 次 保 活 测 试 前 连接 的 空闲 时 间 (2 小 时 ) 
TCPTV KEEPINTVL | 150 75 对 端 无 啊 应 时 保 活 测 试 间 的 间隔 时 间 
TCPTV SRTTBASE 特殊 取 值 ， 意 味 着 目前 无 连接 RTT 样 本 
TCPTV SRTTDFLT 3 连接 无 RTT 样 本 时 的 默认 值 


TCPTV MIN 2 l 重 传 定时 器 最 小 值 
TCPTV REXMTMAX 128 64 38 (E E AKIE 
w e 





图 25-3 TCP 实 现 中 基本 的 定时 器 取 值 
图 25-4 列 出 了 在 代码 中 会 遇 到 的 其 他 定时 展销 量 。 


TCP LINGERTIME 用 于 SO_LINGER 插 口 选 项 的 最 大 时 间 ， 以 秒 为 单位 


TCP MAXRXTSHIFT 等 待 某 个 ACK 的 最 大 重 传 次 数 
TCPTV KEEPCNT 对 端 无 啊 应 时 ， 最 大 保 活 测 试 次 数 





图 25-4 定时 器 第 量 


图 25-5 中 定义 的 TCPT_RRNGESET 宏 ， 给 定时 器 设 定 一 个 给 定 值 ， 并 确认 该 值 在 指定 苑 
围 内 。 


102 #define TCPT RANGESET(tv, value, tvmin, tvmax) { \ op fone 
103 (Cv) = (value); X 
104 if ((tv) < [ttwvmin)) \ 
105 (tv) = (tumin); X 
106 else if ((tv) » (tvmax)) \ 
107 (Ev) = (tymax);. \ 
108 ) 
tcp timer.h 


图 25-5 TCPT RANGESETZ: 


从 图 25-3 可 知 ， 重 传 定 时 器 和 持续 定时 器 都 有 最 大 值 和 最 小 值 限 制 ， 因 为 它们 的 取 值 都 
是 基于 测量 的 往返 时 间 动 态 计 算得 到 的 ， 其 他 定时 屁 均 设 为 前 值 。 

本 章 中 将 不 讨论 图 25-4 中 列 出 的 一 个 特殊 定时 器 : 插口 的 拖延 定时 右 (linger timer)， 这 是 
由 插口 选项 SO_LINGER 设 置 的 。 这 是 一 个 插口 级 的 定时 器 ,由 系统 函数 close 使 用 (15.15 节 )。 
在 图 30-12 中 读者 将 看 到 ， 播 口 关 闭 时 ，TCP 会 首先 检查 该 选项 是 否 置 位 ， 拖 延 时 间 是 否 为 0。 
如 果 上 述 条 件 满足 ， 将 不 采用 TCP 正 常 的 关闭 过 程 ， 连 接 直接 被 复位 。 
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25.3 tcp canceltimersiA/£Zi 


图 25-6 让 定义 了 tep canceltimersiK. 连接 进入 TIME_WAIT 状 态 时 , tcp input 
在 设 定 2MSL 定 时 器 之 前 ， 调 用 该 函数 。4 个 定时 计数 器 清 零 ， 相 应 地 关闭 了 重 传 定时 如 、 持 
续 定时 器 、 保 活 定 时 器 和 FIN_WAIT_2 定 时 颖 。 


107 void SP-A 
108 tcp_canceltimers (tp) 
109 struct tcpcb *tp; 
LLO f 
111 int 1; 
1T4 for (i = 0; 1 < TCPT.NTIMERS; i++) 
113 tp-»t. timer[i) = O0; 
114 ) i 
tcp timer.c 


图 25-6 tcp canceltimersi&Z 


25.4 tcp fasttimorfZi 


图 25-7 定 义 了 人 tcp fasttimo 国 数 。 该 国 数 每 隔 200 ms 被 pr_fasttimo 调 用 一 次 ， 用 
于 操作 延迟 ACK 定 时 絮 。 


41 void er 
42 tcp fasttimo() 
43 ( 
44 struct inpcb *inp; 
45 struct tcpcb *tp; 
46 int S = Ssplnet(); 
47 inp - tcb.inp next; 
48 if (inp) 
49 for (; inp l= &tcb; inp = inp-»inp next) 
50 if ((tp = (struct tcpcb *) inp-»inp ppcb) && 
51 (tp-»t flags & TF DELACK)) ( 
52 tp-»t flags &- TF. DELACK; 
53 tp-»t flags |- TF ACKNOW; 
54 tcpstat.tcps delack-«-*; 
55 (void) tcp output (tp); 
56 } 
57 spix(s); 
58 ] ; 
tcp. timer.c 


图 25-7 tcp fasttimor& Zr, 48:200 ms 调用 一 次 


国 数 检查 TCP 链 表 中 每 个 具有 对 应 TCP 控 制 块 的 Internet PCB, 4n &TCP _ DELACK 标 志 置 
位 ， 清 除 该 标志 ， 并 置 位 TF_ACKNOW 标 志 。 调 用 tcp_output， 由 于 TF_ACKNOW 标 志 已 置 
位 ，ACK 被 发 送 。 

为 什么 TCP 的 PCB 链 表 中 的 某 个 Internet PCB 会 没有 相应 的 TCP 控 制 块 (第 50 行 的 判断 )? 读 
者 将 在 图 30-11 中 看 到 ， 创 建 插口 时 (PRU_ATTACH 请 求 响应 socket 系统 调用 )， 首 先 创建 
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Inertnet PCB ， 之 后 才 创 建 TCP 控 制 块 。 两 个 操作 间 有 可 能 会 插入 高 优先 级 的 时 钟 中 断 ( 图 1-13)， 
该 中 断 有 可 能 调用 cp_fasttimo 国 数 。 


25.5 tcp slLowtimo 国 数 


图 25-8 定 义 了 tcp _ slowtimo 国 数 ， 每 隔 900ms 被 pz slowtimo 调 用 一 次 。 它 操作 其 他 
6 个 定时 器 : 连接 建立 定时 器 、 重 传 定时 器 、 持 续 定时 器 、 保 活 定 时 器 、FIN_WAIT_2 定 时 器 


和 2MSL 定 时 器 。 

PET" tcp timer.c 
65 tcp slowtimo() 

66 ( 

67 struct inpcb *ip, *ipnxt; 

68 struct tcpcb *tp; 

69 int s - splnet(); 

70 int i: 

74 tcp maxidle = TCPTV KEEPCNT * tcp_keepintvl; 

72 s 

73 * Search through tcb's and update active timers. 

74 a^ i 

75 ip - tcb.inp next; 

76 it (ip se B) [f 

77 splx(í(s):; 

78 return; 

79 ) 

80 for ts ip t= &tcb; ip = ipnxt) + 

81 ipnxt - ip-»inp next; 

82 tp = intotcpcb(í1ip); 

83 if (Ep == 0) 

84 continue; 

85 for (i12 0; i < TCPT NTIMERS; i+) ( 

86 if (tp-»t. timer[i] && --tp-»t timer[i) == 0) ( 
87 (void) tcp. usrreq(tp-»t,. inpcb-»inp, socket, 
88 PRU SLOWTIMO, (struct mbuf *) 0, 
89 (struct mbuf *) i, (struct mbuf *) 0); 
90 if (ipnxt-»inp prev !- ip) 

91 goto tpgone; 

92 ) 

93 } 

94 tp-»t idle-«-; 

95 if (tp-»t. rrt) 

96 tp->t_rtt++; 

97 tpgone: 

98 ; 

99 } 

100 tcp_iss += TCP_ISSINCR / PR_SLOWHZ; /* increment iss */ 
101 tcp. now-4-*; /* for timestamps */ 

102 Splx(s); 
LOS ] 





tcp timer.c 
图 25-8 tcp slowtimortKZE, 455500 ms 调用 一 次 


71 tcp_maxidle 初 始 化 为 10 分 钟 ， 这 是 TCP 回 对 端 发 送 连接 探测 报 文 段 后 ， 收 到 对 端 主机 
响应 前 的 最 长 等 待 时 间 。 如 图 25-6 所 示 ，FIN_WAIT_2 定 时 右 也 使 用 了 这 一 变量 。 它 的 初始 化 
语句 可 放 到 tcp_init 中 ， 因 为 其 值 可 在 系统 初 局 时 设 定 ( 见 习题 25.2)。 
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1. RAD A TCP WPK D H ES 
72-89 检查 TCP 链 表 中 每 个 具有 对 应 TCP 控 制 块 的 Internet PCB ， 测 试 每 个 连接 的 所 有 定时 
计数 右 ， 如 末 非 0， 计 数 绢 减 1。 如 果 减 为 0， 则 发 送 PRU_SLOWNTIMO 请 求 。 后 面 会 介绍 该 请 
求 将 调用 tcp _ timers 国 数 。 

tcp_usrreq 的 第 四 个 参数 是 指向 mbuf 的 指针 。 不 过 ， 在 不 需要 mbuf 指 针 的 场合 ， 这 个 
参数 实际 被 用 于 完成 其 他 功能 。tcp_slowtimo 函 数 中 利用 它 传递 索引 i， 指 出 超时 的 是 哪 
一 个 时 钟 。 代 码 中 把 i 强制 转换 为 mbuf 指 针 是 为 了 避免 编译 错误 。 

2. 检查 TCP 控 制 块 是 否 已 被 删除 
90-93 在 检查 控制 块 中 的 定时 右 之 前 ， 先 将 指向 下 一 个 Internet PCB 的 指针 保存 在 ipnxt 中 。 
每 次 PRU_SLOWTIMO 请 求 返回 后 ，tcp slowtimo 会 检查 TCP 链 表 中 的 下 一 个 PCB 是 否 仍 指 
问 当 前 正 处 理 的 PCB 。 如 果 不 是 ， 则 意味 着 控制 块 已 被 删除 一 一 也 许 2MSL 定 时 绒 超 时 或 重 传 
定时 如 超 时 ,并 且 TCP 已 放弃 当前 连接 一 一 控制 转 到 tpgone, 跳 过 当前 控制 块 的 其 余 定时 器 ， 
井 移 至 下 一 个 PCB 。 

3. 计算 空闲 时 间 
94 当 一 个 报 文 段 到 达 当 前 连接 ,tcp_input 清 零 控 制 块 中 的 t_idle。 从 连接 收 到 最 后 一 
个 报 文 段 起 ， 每 隔 500ms t_idle 递 增 一 次 。 空 几时 间 统 计 主 要 有 三 个 目的 : (1)TCP 在 连接 空 
内 2 小 时 后 发 送 连接 探测 报 文 段 ，(2) 如 果 连 接 位 于 FIN_WAIT_2 状 态 ， 且 空间 10 分 钟 后 又 空闲 
75 秒 ，TCP 将 关闭 该 连接 (3) 连接 空 帮 一段 时 间 后 ，tcp_output 将 返回 慢 启 动 状态 。 

4. 增加 RTT 计 数 器 
95-96 如 朵 需要 测量 菜 个 报 文 段 的 RTT，tcp_output 在 发 送 该 报 文 段 时 ， 初 始 化 t_rtt 
计数 右 为 1。 它 每 500 ms 递增 一 次 ， 直 至 收 到 该 报 文 段 的 确认 。 在 tcp_slowtimo 函 数 中 ， 
如 果 连 接 正 对 某 个 报 文 段 计 时 ， 即 t_rtt 计 数 器 非 零 ， 则 递增 t_rtt。 

S. 递增 初始 发 送 序号 
100 tcp iss 在 tcp init 中 初始 化 为 1。 每 500 ms tcp iss 增 加 64 000: 128 000 
(TCP ISSINCR) 除 以 2 (PR_SLOWNH2Z)。 尽 管 看 上 去 tcp_iss 每 秒 钟 仅 递增 两 次 ， 但 实际 速 
率 可 达 每 8 微 秒 增加 1。 后 面 将 介绍 ， 无 论 主动 打开 或 被 动 打开 ， 只 要 建立 了 一 条 连接 ， 
tcp iss 就 会 增加 64 000, 

RFC 793 规 定 初 始 发 送 序号 应 该 约 每 4 微 秒 增加 一 次 ， 或 每 秒 钟 230 000 次 。Net/3 

实现 的 增加 速率 只 有 规定 的 一 半 。 

6. 递增 RFC 1323 规 定 的 时 间 截 值 
101 tcp_now 在 系统 重 局 时 初始 化 为 0， 每 500 ms 递增 一 次 ， 用 于 实现 RFC 1323 中 定义 的 时 
[RH] &k[Jacobson, Barden 和 Borman 1992]。26.6 节 中 将 详细 介绍 这 一 功能 。 
75-79 请 注意 ， 如 果 主 机 上 没有 打开 的 连接 (tcb . inp_next 为 空 )， 则 tcp_iss 和 则 
tcp_now 的 递增 将 停止 。 这 种 状况 只 可 能 发 生 在 系统 初 启 时 ， 因 为 在 一 个 联网 的 UNIX 系 统 
中 几乎 不 可 能 没有 若干 活跃 的 TCP 服 务 器 。 


25.6 tcp timers ži 


tcp timers 国 数 在 4 个 TCP 定 时 计数 右 中 的 任何 一 个 减 为 0 时 由 TCP 的 PRU_SLOWTIMO 
请 求 处 理 代 码 调用 (图 30-10): 


660 


TCP/IP:fÉ&R %2: 实现 


case PRU SLOWTIMO: 


tp - tcp timers(tp, (int)nam); 


整个 函数 的 结构 是 一 个 switch 语 句 ， 每 个 定时 器 对 应 一 个 case 语 句 ， 如 图 25-9 所 示 。 
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struct tcpcb * tcp timer.c 


tcp timers(tp, timer) 
struct tcpcb *tp; 

int timer; 

( 


int rexmt; 


switch (timer) ( 
/* switch cases wy 


} 
return (tp); 
) 
tcp timer.c 


图 25-9 tcp timers 国 数 : 总 体 框架 


下 面 我 们 介绍 其 中 3 个 定时 计数 器 (5 个 TCP 定 时 器 )， 重 传 定时 器 留待 25.11 节 中 再 讨论 。 


25.6.1 FIN_WAIT_2 和 2MSL 定 时 器 


TCP 的 TCP2_2MSL 定 时 计数 器 实现 了 两 种 定时 左 。 

1) FIN_WAIT_2 定 时 器 。 当 tcp_input 从 FIN_WAIT _1 状 态 变迁 到 FIN_WAIT_2 状 态 ， 并 
且 揪 口 不 再 接收 任何 新 数据 (意味 着 应 用 进程 调用 了 close， 而 不 是 shutdown， 从 而 无 法 利 
用 TCP 的 半 关 闭 功 能 ) 时 ，FIN_WAIT_2 定 时 器 设 定 为 10 分 钟 (tcp_maxidle)。 这 样 可 以 防止 
连接 永远 停留 在 FIN_WAIT_2 状 态 。 

2) 2MSL 定 时 器 。 当 TCP 转 移 到 TIME_WAIT 状 态 ，2MSL 定 时 器 设 定 为 60 秒 。 


图 2$-10 列 出 了 处 理 2MSL 定 时 器 的 case 语 和 有 








125 m cp. timer.c 
128 * 2 MSL timeout in shutdown went off. If we're closed but 
129 * still waiting for peer to close and connection has been idle 
130 * too long, or if 2MSL time is up from TIME WAIT, delete connection 
131 * control block. Otherwise, check again in a bit. 
132 *J 
133 case TCPT 2MSL: 
134 if (tp-»t state !- TCPS TIME WAIT && 
135 tp-»t idle <= tcp maxidle) 
136 tp-»t timer[TCPT 2MSL] = tcp keepintvl; 
137 else 
138 tp = tep close(tp); 
139 break; . 
tcp timer.c 
图 25-10 tcp timers 国 数 : 2MSL 定 时 器 超时 
1. 2MSL 定 时 器 


127-139 图 2$-10 中 的 条 件 判断 逻辑 较为 复杂 ， 因 为 TCPT_2MSL 计 数 右 的 两 种 不 同 用 法 混 
在 了 一 起 (习题 25.4)。 首 先 看 TIME_WAIT 状 态 ， 定 时 器 60 秒 超时 后 ， 将 调用 tcp close 并 释 
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放 控 制 块 。 图 25-11 给 出 了 典型 的 时 间 顺 序 ， 列 出 了 2MSL 定 时 句 超 时 后 的 一 系列 函数 调用 。 
从 图 中 可 看 出 ， 如 果 某 个 定时 器 被 设 定 为 N 秒 (2 x N 滴 答 )， 由 于 定时 计数 器 的 第 一 次 递减 将 发 
生 在 其 后 的 0~500 ms 之 间 ， 定 时 器 将 在 其 后 2 x N 一 1 和 2 x N 个 滴答 之 间 的 茶 个 时 刻 超 时 。 


119 时 钟 滴答 x 500ms 滴 答 =59.5 秒 








119 118 117 3 2 1 0 
sc pe m ? 
这 个 区 间 内 ， 连 接 进 每 滴答 500 ms 
入 TIME_WAIT 状 态 ， pr m 0 
2MSL 定 时 器 设 定 为 ; 
60 秒 (120 个 滴答 ) teps i imo ( ) 
tcp_usrreq(PRU_SLOWTIMO) 
调用 
tcp timers(TCPT 2MSL) 
调用 


tcp close() 
图 25-11 TIME WAITTA Æ F2MSLÆ 2s HJ E E IT 
2. FIN WAIT 2;£H] 28 
127-139 如 果 连 接 状 态 不 是 TIME_WAIT，TCPT 2MSL 计 数 器 表示 FIN_WAIT_2 定 时 絮 。 
只 要 连接 的 空 亲 时 间 超过 10 分 钟 (tcp_maxidle)， 连 接 就 会 被 关闭 。 但 如 采 连 接 的 空闲 时 间 
小 于 或 等 于 10 分 钟 ，FIN_WAIT_2 定 时 器 将 被 设 为 75 秒 。 图 25-12 给 出 了 典型 的 时 间 顺 序 。 


1200 滴 答 150 滴 答 


一 
' ' 


Xt AFIN, WAIT. 21A d FIN_WAIT_2 定 时 器 超时 FIN_WAIT_2 定 时 器 超时 
FIN_WAIT_2 定 时 器 设 定 为 t idles1198; t idle-11984150; 
1200(tcp maxidle); FIN_WAIT_2 定 时 器 设 定 | tcp closeO 

t idles0 为 150 (tcp keepintv1) 


图 25-12 FIN_WAIT_2 定 时 器 ， 避 免 永 久 滞留 于 FIN_WAIT_2 状 态 


连接 接收 到 一 个 ACK 后 ， 从 FIN_WAIT_1 状 态 变 迁 到 FIN_WAIT_2 状 态 ( 图 24-15), t idle 
被 置 为 0，FIN_WAIT_2 定 时 器 设 为 1200(tcp maxidle)。 图 25-12 中 ， 向 上 的 箭头 指 着 10 分 钟 定 
时 起 始 时 刻 的 右 侧 ， 强 调 定时 计数 器 的 第 一 次 递减 发 生 在 定时 器 设 定 后 的 0~500 ms 之 间 。1199 
个 滴答 后 ， 定 时 器 超时 。 从 图 25-8 中 可 知 ， 在 四 个 定时 计数 器 递减 并 做 超时 判定 之 后 ，t_idle 
才 会 增加 ， 因 此 t_idle 等 于 1198( 我 们 假定 连接 在 10 分 钟 内 一 直 空 )。 因 为 条 件 表达 式 “1198 
小 于 或 等 于 1200” 为 真 ，FIN_WAIT_2 定 时 器 设 为 150 (tcp keepintvl)。 定 时 器 75 秒 后 再 次 
超时 ， 假 定 连 接 一 直 空 间 ，t_idle 应 为 1348， 条 件 表达 式 为 假 ，tcp_close 被 调用 。 

第 一 次 10 分 钟 定 时 后 加 入 另 一 个 75 秒 定时 是 因为 除非 持续 空闲 时 间 超 过 10 分 钟 ， 否 则 处 
于 FIN_WAIT_2 状 态 的 连接 不 会 被 关闭 。 如 果 第 一 个 10 分 钟 定 时 絮 还 未 超时 ， 测 试 t_iqdle 值 
是 没有 意义 的 ， 但 只 要 过 了 这 上 段 时 间 ， 每 隔 75 秒 就 会 进行 一 次 测试 。 由 于 有 可 能 收 到 重复 的 
报 文 段 ， 即 一 个 重复 的 ACK 使 得 连接 从 FIN_WAIT_1 状 态 变迁 到 FIN_WAIT_2 状 态 ， 因 此 每 收 
到 一 个 报 文 段 ，10 分 钟 等 待 将 重新 开始 (因为 t+_idle 重 设 为 0)。 
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处 于 FIN_WAIT_2 状 态 的 连接 在 10 分 钟 空 闲 后 将 被 关闭 ， 这 一 点 并 不 符合 协议 规 
范 ， 但 在 实际 中 是 可 行 的 。 处 于 FIN_WAIT_2 状 态 ， 应 用 进程 调用 close， 连 接 上 的 
所 有 数据 都 已 发 送 并 被 确认 ，FIN 已 被 对 端 确 认 ，TCP 等 待 对 端 应 用 进程 调用 close。 
如 果 对 端 进 程 永远 不 关闭 它 的 连接 ， 本 地 TCP 将 一 直 滞 留 在 FIN_WAIT_2 状 态 。 应 定 
义 计 数 器 保存 由 于 这 种 原因 而 终止 的 连接 数 ， 从 而 了 解 这 种 状况 出 现 的 频率 。 


25.6.2 持续 定时 器 
图 25-13 给 出 了 处 理 持续 定时 右 超 时 的 case 语 句 。 
pr tcp timer.c 
211 * Persistence timer into zero window. 
212 * Force a byte to be output, if possible. 
213 xy 
214 case TCPT PERSIST: 
215 tcpstat.tcps persisttimeo--; 
216 tcp setpersist(tp); 
217 tp-»t force = 1; 
218 (void) tcp output(tp); 
219 tp-»t force = 0; 
220 break; : 
tcp timer.c 


图 25-13 tcp timers 国 数 : 持续 定时 器 超时 


强制 发 送 窗口 探测 报 文 段 
210-220 持续 定时 器 超时 后 ， 由 于 对 端 已 通告 接收 窗口 为 0，TCP 无 法 癌 对 端 发 送 数据 。 此 
时 ，tcp_setpersist 计 算 持 续 定时 器 的 下 一 个 设 定 值 ， 并 存储 在 TCPT_PERSIST 计 数 屁 
中 。t_force 标 志 置 位 ， 强 制 tfcp_output 发 送 1 字 节 数据 。 

图 25-14 给 出 了 局 域 网 环境 下 ， 持 续 定 时 器 的 典型 值 ， 假 定 连接 的 重 传 时 限 为 1.5 秒 ( 见 卷 1 
的 图 22-1)。 


5,546. 12 24 | 48 | 60 60$ 
0 5 10 16 28 52 100 160 220 


图 25-14 持续 定时 器 取 值 的 时 间 表 : 探测 对 端 接收 窗口 


一 旦 持续 定时 器 取 值 达到 60 秒 ，TCP 将 每 隔 60 秒 发 送 一 次 窗口 探测 报 文 段 。 由 于 持续 定 
时 器 取 值 的 下 限 为 5 秒 ， 上 限 为 60 秒 ， 因 此 定时 器 头 两 次 均 设 定 为 5 秒 ， 而 不 是 1.5 秒 和 3 秒 。 
从 图 中 可 知 ， 定 时 器 采用 了 指数 退 避 策略 ， 新 的 取 值 等 于 原 有 值 乘 以 2，25.9 市 中 将 介绍 这 一 
算法 的 实现 。 
25.6.3 ”连接 建立 定时 器 和 保 活 定时 器 

TCP 的 TCPT_KEEP 计 数 器 实现 了 两 个 定时 器 : 

1) 当 应 用 进程 调用 connect ， 连 接 转移 到 SYN_SENT 状 态 (主动 打开 )， 或 者 当 连 接 从 


LISTEN 状 态 变 迁 到 SYN_RCVD 状 态 (被 动 打 开 ) 时 ，SYN 发 送 之 后 ， 将 连接 建立 定时 颖 设 定 为 
7Sfh(TCPTV KEEP INIT)。 如 果 75 秒 内 连接 未 能 进入 ESTABLISHED 状 态 ， 则 该 连接 被 丢弃 。 
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2) 收 到 一 个 报 文 段 后 ，tcp_input 将 复位 连接 的 保 活 定时 器 ， 重 设 为 2 小 时 
(tcp_keepidle)， 并 清 零 连接 的 t_idle 计 数 器 。 上 述 操作 适用 于 系统 中 所 有 的 TCP 连 接 ， 
无 论 是 否 置 位 了 插口 的 保 活 选项 。 如 果 保 活 定 时 器 超时 ( 收 到 最 后 一 个 报 文 段 2 小 时 后 )， 并 且 
置 位 了 插口 的 保 活 选 项 ， 则 TCP 将 向 对 端 发 送 连接 探测 报 文 段 。 如 果 定 时 器 超时 ， 且 未 置 位 
插口 选项 ， 则 TCP 将 只 复位 定时 右 ， 重 设 为 2 小 时 。 

图 25-15 给 出 了 处 理 TCP 的 TCPT _ KEEP 计数 器 的 case 语 句 。 


rp 7s tcp timer.c 

222 * Keep-alive timer went off; send something 

223 * or drop connection if idle for too long. 

224 i d 

225 case TCPT_KEEP: 

226 tcpstat.tcps_keeptimeo++; 

227 if (tp->t_state < TCPS_ESTABLISHED) 

228 | goto dropit; /* connection establishment timer */ 

229 if (tp-»t inpcb-»inp socket-»so options & SO KEEPALIVE && 

230 tp-»t state <= TCPS, CLOSE WAIT) ( 

231 if (tp-»t idle >= tcp keepidle + tcp maxidle) 

232 goto dropit; 

233 r^ 

234 * Send a packet designed to force a response 

235 * if the peer is up and reachable: 

236 * either an ACK if the connection is still alive, 

237 * or an RST if the peer has closed the connection 

238 * due to timeout or reboot. 

239 * Using sequence number tp-»snd una-1 

240 * causes the transmitted zero-length segment 

241 * to lie outside the receive window; 

242 * by the protocol spec, this requires the 

243 * correspondent TCP to respond. 

244 £7 

245 tcpstat.tcps_keepprobe++; 

246 tcp respond(tp, tp->t_template, (struct mbuf *) NULL, 

247 tp-»rcv nxt, tp-»snd una - 1, 0); 

248 tp-»t timer[TCPT KEEP] = tcp keepintvl; 

249 ) else 

250 tp-»t timer[TCPT KEEP] = tcp keepidle; 

251 break; 

252 dropit: 

253 tcpstat.tcps keepdrops--; 

254 tp = tcp drop(tp, ETIMEDOUT); 

255 break; a 
tcp timer.c 


图 25-15 tcp_timer ğe: 保 活 时 钟 超时 处 理 


1. 连接 建立 定时 堪 7S 秒 后 超时 
221-228 如 果 状 态 小 于 ESTABLISHED( 图 24-16), TCPT _ KEEP 计数 器 代表 连接 建立 定时 器 。 
定时 器 超时 后 ， 控 制 转 到 azopit ， 调 用 cp_drop 终 止 连接 ， 给 出 差错 代码 ETIMEDOUT。 
我 们 将 看 到 ，ETIMEDOUT 是 默认 差错 码 一 一 例如 ， 连 接收 到 了 某 个 差错 报告 ， 比 如 ICMP 的 
主机 不 可 达 ， 返 回应 用 进程 的 差错 码 将 变 为 BHOSTUNRERCH， 而 非 默认 差错 码 。 

我 们 将 在 图 30-4 中 看 到 ，TCP 发 送 SYN 的 同时 初始 化 了 两 个 定时 器 : 正在 讨论 的 连接 建立 定 
时 器 ( 设 定 为 7$ 秒 ) 和 重 传 定时 右 ， 保 证 对 端 无 啊 应 时 可 重 传 SYN。 图 25-16 给 出 了 这 两 个 定时 器 。 


664 TCP/IPzÉÉR X2: 实现 





AA Ge 重 传 tcp. drop() 
SYN SYN SYN 


图 25-16 SYN 发 送 后 : EREE d RE PEINT 28 


对 于 一 个 新 连接 ， 重 传 定时 器 初始 化 为 6 秒 ( 图 25-19)， 后 续 值 分 别 为 24 秒 和 48 秒 ，25.7 市 
中 将 详细 讨论 定时 絮 取 值 的 计算 方法 。 重 传 定时 絮 使 得 SYN 报 文 段 在 0 秒 、6 秒 和 30 秒 处 连续 
三 次 被 重 传 。 在 75 秒 处 ， 也 就 是 重 传 定时 左 再 次 超时 之 前 3 秒 钟 ， 连 接 建立 定时 绢 超时 ， 调 用 
tcp_drop 终 止 连接 。 

2. 保 活 定时 右 在 2 小 时 空 用 后 超时 
229-230 所 有 连接 上 的 保 活 定时 右 在 连续 2 小 时 空闲 后 超时 ， 无 论 连 接 是 否 选 取 了 插口 的 
SO KEEPRALIVE 选 项 。 如 果 插 口 选 项 置 位 ， 并 且 连 接 处 于 ESTABLISHED 状 态 或 
CLOSE_WAIT 状 态 ( 图 24-15)，TCP 将 发 送 连 接 探 测报 文 段 。 但 如 果 应 用 进程 调用 了 close( 状 
态 大 于 CLOSE_WAIT)， 即 使 连接 已 空间 了 2 小 时 ，TCP 也 不 会 发 送 连接 探测 报 文 段 。 

3. 无 啊 应 时 丢弃 连接 
231-232 如 果 连 接 总 的 空 亲 时 间 大 于 或 等 于 2 小 时 (tcp_keepidle) 加 10 分 钟 
(tcp_maxidle)， 连 接 将 被 丢弃 。 也 就 是 说 ， 对 端 无 啊 应 时 ，TCP 最 多 发 送 9 个 连接 探测 报 
文 段 ， 间 隔 75 秒 (tcp_keepintv1)。TCP 在 确认 连接 已 死亡 之 前 必须 发 送 多 个 连接 探测 报 文 
段 的 一 个 原因 是 ， 对 端的 响应 很 可 能 是 不 带 数 据 的 纯 ACK 报 文 段 ，TCP 无 法 保证 此 类 报 文 段 
的 可 靠 传输 ， 因 此 ， 连 接 探测 报 文 段 的 啊 应 有 可 能 丢失 。 

4. 进行 保 活 测试 
233-248 如 果 TCP 进 行 保 活 测试 的 次 数 还 在 许可 范围 之 内 ，tcp_respond 将 发 送 连接 探测 
报 文 段 。 报 文 段 的 确认 字段 (cpP_responda 的 第 四 个 参数 ) 填 入 zcv_nxt， 期 待 接收 的 下 一 
序号 ; 序号 字段 填 入 snd_una -1， 即 对 端 已 确认 过 的 序号 (图 24-17)。 由 于 这 一 特定 序号 落 
在 接收 窗口 之 外 ， 对 端 必 然 会 发 送 ACK， 给 定 它 所 期 待 的 下 一 序号 

图 25-17 小 结 了 保 活 定时 器 的 用 法 。 

2 小 时 75 . 75 , 08 m.a. 786, 25... 75. 78 
(连接 空闲 ) 150 225 300 375 450 525 600 675 


E. [4 E d 4 I 


探测 探测 探测 探测 探测 探测 探测 探测 探测 
] 2 3 4 5 6 7 8 9 
tcp. drop() 


图 25-17 保 活 定时 器 小 结 : AEX me do R13 


从 0 秒 起 ， 每 隔 75$ 秒 连续 9 次 发 送 连 接 探测 报 文 段 ， 直 至 600 秒 。675 秒 时 (定时 右 2 小 时 超 
时 后 的 11.25 分 钟 ) 连 接 被 丢弃 。 请 和 注意， 尽管 常量 TCPTV_KEEPCNT( 图 25-4) 的 值 设 为 8， 却 发 
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探测 图 25-17 中 i 


14399 


送 了 9 次 报 文 段 ， 这 十 因为 代码 首先 完成 定时 磺 递 减 、 与 
0 比较 并 做 可 能 的 处 理 后 才 递 增 变量 t_idle( 图 25-8)。 当 
tcp_input 接 收 了 一 个 报 文 段 ， 就 会 复位 保 活 定 时 如 为 
14400(tcp keepidle)， 并 清 零 t idle。 下 一 次 调用 
tcp slowtimo 肝 ， 定 时 器 减 为 14339 而 t idle 增 为 1。 
约 2 小 时 后 ， 定 时 如 从 1 减 为 0 时 将 调用 tcp_timers， 而 
此 时 t_iale 的 值 将 为 14339。 图 25-18 列 出 了 每 次 调用 
tcp timers 时 t idle 的 取 值 。 

图 25-15 中 的 代码 一 直 等 待 t idleX Fx T 15600 
(tcp keepidle+tcp maxidle)， 这 一 事件 只 可 能 发 ”图 25-18 调用 tcp timers 处 理 保 活 
生 在 图 25-17 中 的 675 秒 处 ， 即 连续 发 送 了 9 次 连接 探测 报 Et Lalek HER 
X Bt Zn « 

S. 5i prp ih xe b ag 
249-250 如 果 插 口 选 项 未 置 位 ， 或 者 连接 状态 大 于 CLOSE_WAIT， 连 接 的 保 活 定时 器 将 复 
位 ， 重 设 为 2 小 时 (tcp_keepidle)。 


遗憾 的 是 ， 计 数 器 tcp_keepdrops(253 行 ) 不 加 区 分 地 统计 TCPT_KEEP 定 时 计 
数 器 的 两 种 不 同 用 法 所 造成 的 连接 丢弃 : 连接 建立 计数 器 和 保 活 计数 器 。 


25.7 重 传 定时 器 的 计算 


到 目前 为 止 ， 讨 论 过 的 定时 器 的 取 值 都 是 固定 的 : 延迟 ACK 200ms， 连 接 建立 定时 器 75 
秒 ， 保 活 定 时 器 2 小 时 等 等 。 最 后 两 个 定时 器 一 一 重 传 定时 器 和 持续 定时 器 一 一 的 取 值 依 于 连 
接 上 测算 得 到 的 RTT。 在 讨论 实现 定时 絮 时 限 计 算 和 设 定 的 代码 之 前 ， 首 先 应 理解 连接 RTT 的 
测算 方法 。 

TCP 的 一 个 基本 操作 是 在 发 送 了 需 对 端 确 认 的 报 文 段 后 ， 设 置 重 传 定时 器 。 如 果 在 定时 
恬 时 限 范 围 内 未 收 到 ACK ， 该 报 文 段 被 重 发 。TCP 要 求 对 端 确认 所 有 数据 报 文 段 ， 不 携带 数 
据 的 报 文 段 则 无 须 确认 (例如 纯 ACK 报 文 段 )。 如 果 估 算 的 重 传 时 间 过 小 ， 啊 应 到 达 前 即 超时 ， 
造成 不 必要 的 重 传 ， 如 果 过 大 ， 在 报 文 段 丢失 之 后 ， 发 送 重 传 报 文 段 之 前 将 等 待 一 段 额 外 的 
时 间 ， 降 低 了 系统 的 效率 。 更 为 复杂 的 是 ， 主 机 间 的 往返 时 间 动 态 改 变 ， 且 变化 范围 显著 。 

Net/3 中 TCP 计 算 重 传 时 限 (RTO) 时 不 仅 要 测量 数据 报 文 段 的 往返 时 间 (nzticks)， 还 要 记录 
已 平和 请 的 RITT 估 计 绢 (srt 和 已 平 斌 的 RTT 平 均 偏差 估计 右 (rttvar)。 平 均 偏 差 是 标准 方差 的 民 
好 近似 ， 计 算 较 为 容易 ， 不 需要 标准 方差 的 求 平方根 运算 。[Jacobson 1988b] 讨 论 了 RTT 测 算 
AJE AAT, h TERA: 











ooo] 7i C NI 2 


delta-nticks—srtt 
srtt—srtt+g X delta 
rttvar —rttvar-h(|delta|—rttvar) 
RTO=srtt+4 x rttvar 
delta Jg Bot | s HJ S LIST IR] (nticks) 5; 24 Bi Coe t PJRTT hi srt AA. ge FHSIRTT fà 
计 器 的 增益 ， 设 为 1/8。h 是 用 到 平均 偏差 估计 器 的 增益 ， 设 为 1//4。 这 两 个 增益 和 RTO 计 算 中 
的 乘 数 4 有 意 取 为 2 的 乘 方 ， 从 而 不 需要 乘 、 除 法 ， 只 需要 简单 的 移 位 操作 就 能 够 完成 运算 。 
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[Jacobson 1988b]3 zz RTO X- X, S. 4$ M2 x rttvar， 但 经 过 进一步 的 研究 ，[Jacobson 
1990d] € E 33 4xrttvar， 即 NeU1 实 现 中 采用 的 算式 。 


下 面 首先 介绍 TCP 重 传 定时 器 计算 中 用 到 的 各 种 变量 和 算式 ， 它 们 在 TCP 代 码 中 出 现 的 频 
率 很 高 。 图 25-19 列 出 了 控制 块 中 与 重 传 定时 器 有 关 的 变量 。 


tcpcb 的 成 员 单 位 tcp newtcpcb | 秒 X 
初始 值 


|tert | wgs | — 0o — (| | 已 平滑 的 RTT 估 计 器 : smx8 | 
rtvar | wea | 34 | 3 | EGPMERTIYSHBESEHEE. rvar A | 
our [HE | i2 | 6 | MWERHM.RO | 
EECC E AN oe 


图 25-19 用 于 重 传 定 时 器 计算 的 控制 块 变量 


tcp_backoff 数 组 将 在 25.9 市 末尾 定义 。tcp_newtcpcb 函 数 设 定 这 些 变 量 的 初始 值 ， 
实现 代码 将 在 下 一 市 详细 讨论 。 对 变量 t rxtshift 中 的 shift 及 其 上 限 
TCP_MAXRXTSHIFT 的 命名 并 不 十 分 准确 。 它 指 的 并 不 是 比特 移 位 ， 而 是 如 图 25-19 中 所 声明 
的 ， 指 数组 索引 。 

TCP 时 限 计 算 中 不 易 理 解 的 地 方 是 已 平滑 的 RTT 估 计 器 和 已 平滑 的 RTT 平 均 偏差 估计 器 
(t_rtt 和 t_rttvar) 在 C 代 码 中 都 定义 为 整 型 ， 而 不 是 浮 点 型 。 这 样 可 以 避免 内 核 中 的 浮 点 
运算 ， 代 价 是 增加 了 代码 的 复杂 性 。 

为 了 区 分 缩放 前 和 缩放 后 (Scaled) 的 变量 ， 和 斜体 变量 srt 和 rttvar 表 示 前 面 公 式 中 未 缩放 的 
变量 ,t srtt 和 t rttvar 表 示 TCP 控 制 块 中 缩放 后 的 变量 。 

图 25-20 列 出 了 将 遇 到 的 四 个 和 常量， 它们 分 别 定 义 了 t_srtt 的 缩放 因子 和 t_rttvar 的 
缩放 因子 ， 分 别 为 8 和 4。 


TCP RTT SCALE RR: t srtt-srttx8 
za | | 
TCP RTTVAR SCALE € t rttvar-rttvar x 4 


图 25-20 RIT 均 值 与 偏差 的 乘法 与 移 位 


















25.8 tcp newtcpcb 算 法 


图 25-21 定 义 了 tcp_newtcpcb,， 分 配 一 个 新 的 TCP 控 制 块 并 完成 初始 化 。 创 建新 的 插口 
时 ，TCP 的 PRU_ATTACH 请 求 将 调用 它 (图 30-2)。 调 用 者 已 事先 为 该 连接 分 配 了 一 个 Internet 
PCB ， 并 在 参数 inp 中 包含 指 癌 该 结构 的 指针 。 我 们 在 这 里 给 出 国 数 代 码 ， 是 因为 它 初 始 化 
了 TCP 的 定时 右 变 量 。 
167-175 内 核 函 数 malloc 分 配 控 制 块 所 需 内 存 ，bzero 清 零 新 分 配 的 内 存 块 。 
176 变量 seg _next 和 seg_prev 指 向 未 按 正 常 次 序 到 达 当 前 连接 的 报 文 段 的 重组 队列 。 我 
们 将 在 27.9 节 中 详细 讨论 这 一 重组 队列 。 
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tcp_subr.c 
157 struct tcpob * 
168 tcp. newtcpcb(inp) 
169 struct inpcb *inp; 
ETO $ 
171 struct Ccpcob *tpb; 
1172 tp = malloc(sizeof(*tp), M PCB, M NOWAIT); 
IT3 if (tp -- NULL) 
174 return ((struct tcpcb *) 0); 
175 bzero((char *) tp, sizeof(struct tcpcb)); 
176 tp-»seg next = tp-»seg prev = (struct tcpiphdr *) tp; 
EEI tp->t_maxseg = tcp mssdflt; : 
178 tp-»t flags = tcp do rfc1323 ? (TF REO SCALE | TF REQ TSTMP) : O0; 
179 tp-»t inpcb - inp; 
180 P^ 
181 * Init srtt to TCPTV SRTTBASE (0), so we can tell that we have no 
182 * rtt estimate. Set rttvar so that srtt + 2 * rttvar gives 
183 * reasonable initial retransmit time. 
184 "y 
185 tp-»t.srtt = TCPTV SRTTBASE; 
186 tp»»t rttvar s tcp rttdflt * PR SLOWHZ «« 25; 
187 tp-»t rttmin s TCPTV. MIN; 
188 TCPT RANGESET(tp-»t rxtcur, 
189 ((TCPTV SRTTRBASE »» 2) 4 (TCPTV SRTTDELT << 2)) >> I, 
190 TCPTV MIN, TCPTV REXMTMAX); 
191 tp-»snd, cwnd = TCP MAXWIN << TCP MAX WINSHIFT; 
192 tp-»snd ssthresh = TCP MAXWIN << TCP MAX WINSHIFT; 
193 inp-»inp ip.ip ttl = ip deftt]; 
194 inp-»inp.ppcb = (caddr. t) tp; 
195 return (tp): 
196 ) 
tcp subr.c 


图 25-21 tcp newtcpcb 函 数 : 创建 并 初始 化 一 个 新 的 TCP 控 制 块 


177-179 发 送 报 文 段 的 最 大 长 度 ,，t maxseq， 上 默认 为 512(tcp _mssdf1lt)。 收 到 对 端 
MSS 选 项 后 ， 它 将 被 Lcp_mss 尔 数 更 改 (新 连接 建立 后 ，TCP 也 会 同 对 端 发 送 MSS 选 项 )。 如 
果 配 置 要 求 系统 实现 RFC 1313 规 定 的 可 变 窗口 和 时 间 堆 功能 (图 24-3 中 的 全 局 变量 
tcp do rfcl313， 上 默认 值 为 1)，TF REQ SCALE 和 TF REQ TSTMP 两 个 标志 将 被 置 位 。 
TCP 控 制 块 中 的 t_inpcb 指 针 将 指向 由 调用 者 传 来 的 Internet PCB, 
180-185 初始 化 图 25-19 中 列 出 的 四 个 变量 t srtt, t rttvar, t rttmin 和 
t_rxtcur。 首 先 ， 已 平 请 的 RITT 估 计 器 被 设 为 0(TCPTV_SRTTBRASE)， 这 个 取 值 非常 特殊 ， 
指明 连接 上 还 不 存在 RITT 估 计 器 。 首 次 进行 RIT 测 量 时 ，tcpP_xmit_t 上 imez 国 数 将 判定 已 平 
宣 的 RIT 估 计 器 是 否 等 于 0， 以 采取 相应 动作 。 
186-187 已 平 交 的 RTT 平 均 偏 差 估 计 器 t _rttvar 定 义 为 24: 3(tcp_rttdflt， 图 24-3) 
乘 以 2(PR SLOWHZ) 后 左 移 2 bit( 即 乘 以 4)。 由 于 t_rttvar 是 变量 rttvar 的 4 倍 ， 也 就 等 于 6 个 
滴答 ， 即 3 秒 钟 。RTO 的 最 小 值 ，t rttmin， 为 2 个 滴答 。 
188-190 变量 t_rxtcu 保 存 了 当前 RTO 值 ， 以 滴答 为 单位 ， 最 小 值 为 2 个 滴答 
(TCPTV_MIN)， 最 大 值 为 128 个 滴答 (TCPTV REXMTMAX), TCPT RANGESET 的 第 二 个 参数 ， 
表达 式 计算 后 等 于 12 个 滴答 ， 即 6 秒 钟 ， 是 连接 的 第 一 个 RTO 值 。 

理解 上 述 C 表 达 式 和 RTT 缩 放 值 的 概念 并 不 是 一 件 容易 的 事 ， 下 面 的 讨论 可 能 会 对 您 有 所 
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帮助 。 首 先 从 原始 的 计算 公式 开始 ， 并 将 缩放 后 的 变量 替代 其 中 缩放 前 的 变量 。 下 面 的 算式 
用 于 计算 第 一 个 RTO， 以 乘 数 2 替代 了 乘 数 4。 
RTO=srtt+2 x rttvar 
使 用 乘 数 2 而 非 4 是 最 初 4.3BSD Tahoe 实 现 的 一 个 遗留 问题 [Paxson 1994], 
把 下 面 两 个 缩放 后 的 变量 
t srttz8x srtt 
t rttvar=4 x rttvar 


t rtt 
t rttvar _ 4 





t srtt TL Ear 


RTO 十 2X 


也 就 是 图 25-21 代 码 中 TCPT_RANGESET 第 二 个 参数 的 表达 式 ， 只 不 过 用 常量 一 一 值 为 6 个 滴 
答 的 TCPTV_SRTTDFLT 乘 以 4 后 (缩放 运算 ) 代 替 了 变量 t rttvar, 
191-192 拥塞 窗口 (snd _cwnd) 和 慢 起 动 门限 (snd ssthresh) 初 始 化 为 1 073 725 440 ( 约 
为 1 G 字 市 )， 如 是 配置 了 动态 窗口 选项 ， 这 已 是 TCP 窗 口 大 小 的 上 限 ( 卷 1 的 21.6 节 详细 讨论 了 
慢 起 动 和 如 人 免 拥 塞 策略 )， 即 TCP 首 部 窗口 字段 的 最 大 值 (65535，TCP_MAXWIN) 乘 以 2*，14 是 
窗口 缩放 因子 的 最 大 值 (TCP_MAX_WINSHIFT)。 后 面 将 看 到 ， 连 接 上 发 送 或 接收 了 一 个 SYN 
时 ，tcp_mss 复 位 snd cwnd 为 1。 
193-194 Internet PCB 中 的 IP TTL 的 默认 值 初 始 化 为 64(ijp deftt1l)， 而 PCB 则 指向 新 的 
TCP 控 制 块 。 

代码 中 没有 明确 初始 化 的 其 他 变量 ， 如 移 位 变量 t_rxtshift， 均 为 0， 这 是 因为 控制 块 
内 存 分 配 后 已 由 bzero 清 零 。 


25.9 tcp setpersist 函 数 


接 下 来 要 讨论 的 函数 是 tcp_setpersist， 它 用 到 了 TCP 的 重 传 超时 算法 。 从 图 25-13 
中 可 知 ， 持 续 定时 器 超时 后 ， 将 调用 此 函数 。 当 TCP 有 数据 要 发 送 ， 而 连接 对 端 通告 接收 窗 
口 为 0 时 ， 持 续 定时 絮 启 动 。 图 25-22 给 出 了 函数 实现 代码 ， 计 算 并 存储 定时 器 的 下 个 取 值 。 


493 void Mi 
494 tcp setpersist (tp) 
495 struct tcpcb *tp; 
496 ( 
497 t = ((tp-—»t.axrt »» 2) + tp-»to rttvar) >> 1; 
498 if (tp-»t timer[TCPT REXMT]) 
499 panic("tcp output REXMT"); 
500 y" 
501 * Start/restart persistance timer. 
502 à 
503 TCPT RANGESET(tp-»t timer([TCPT PERSIST], 
504 t * tep backoff[tp-»t rxtshift], 
505 TCPTV PERSMIN, TCPTV PERSMAX); 
506 if (tp-»t rxtshift < TCP MAXRXTSHIFT) 
507 tp-»t rxtshift-s-; 
508 ) 
tcp output.c 


图 25-22 tcp setpersistiKZk: 计算 并 存储 持续 定时 器 的 下 一 次 取 值 
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1. $81 EEEH AFRE 
493-499 持续 定时 堪 设 定之 前 ， 首 先 检查 确认 重 传 定时 颖 未 局 动 ， 这 是 因为 两 个 定时 大 和 披 
WE HR: 如 果 数 据 已 被 发 送 ， 说 明 对 端 通告 的 接收 窗口 必然 非 零 ， 但 持续 时 钟 仅 当 对 端 通告 
零 接 收 窗口 时 才 会 设 定 。 
2. 计算 RTO 
500-505 图 数 起 始 处 ， 计 算 RITO 值 并 存储 到 变量 t 中 。 使 用 的 计算 公式 为 
RTO=srtt+2 x rttvar 


与 上 小 市 结束 时 讨论 过 的 公式 相同 。 通 过 变量 赫 换 可 得 到 


t srtt 
"tt rbtwvar 
RTO - —À : 
即 变 量 t 的 计算 式 。 
3. 指数 退 避 算 法 
506-507 RTO 计 算 中 还 用 到 了 指数 退 避 算法 ， 将 上 式 计 算得 到 的 RTO 与 tcp_backoff 数 组 
中 的 某 个 值 相 乘 : 


int tcp backoff[ TCP MAXRXTSHIFT + 1] = 
(1, 2, 4, 8, 15, 32, 64, 64, 64, 64, 64, 64, 64 ]; 


tcp outputs —j/X 7Jik fee B TAE 28 B) IRE : 
tp-»t rxtshift-0; 
tcp setpersist (tp); 
因此 ， 第 一 次 调用 tcp setpersist 时 , t rxtshift= 0, HiTtcp backoff[0]-1, 
持续 时 限 等 于 上 。TCPT RANGESET 宏 确保 RTO 值 位 于 5 秒 ~60 秒 之 间 。t_rxtshift 每 次 增加 
1]， 直 到 最 大 值 12(TCP MAXRXTSHIFT), tcp backoff [12] 是 数组 的 最 后 一 个 元 素 。 


25.10 tcp xmit timer ži 


下 一 个 讨论 的 图 数 ，tcp_xmit_timer， 在 得 到 了 一 个 RIT 测 量 值 ， 从 而 更 新 已 平 请 的 
RTT 舍 计 絮 (srtt) 和 平均 偏差 (rttvar) 时 被 调用 。 

参数 rtt 传 递 了 得 到 的 RTT 测 量 值 。 它 的 值 为 nticks+1 (与 25.7 节 中 的 符号 一 致 )， 可 以 通 
过 下 面 两 种 方法 之 一 得 到 。 

如 果 收 到 的 报 文 段 中 存在 时 间 惟 选项，RTT 测 量 值 应 等 于 当前 时 间 (tcp_now) 减 去 时 间 
戳 值 。 我 们 将 在 26.6 节 中 讨论 时 间 惟 选项 ， 现 在 只 需 了 解 Lcp_now 每 500ms 递 增 一 次 (图 25-8)。 
发 送 报 文 段 时 ，tcp_now 作 为 时 间 惟 被 发 送 ， 连 接 对 端 在 相应 的 ACK 中 回 显 该 时 间 戳 。 

如 果 未 使 用 时 间 惟 ， 可 以 对 数据 报 文 计时 。 从 图 25-8 可 知 ， 连 接 上 的 计数 器 t_rtt 每 500 
ms 递增 一 次 。 在 25.5 节 也 曾 提 到 ， 该 计数 器 初始 化 为 1， 因 此 收 到 ACK 时 ， 该 计数 右 中 的 值 即 
ARTT S [E Jj 1 CLAIR ARA). 

tcp input 中 调用 cp xmit timer 的 典型 代码 如 下 : 

if (ts present) 
tcp xmit timer(tp, tcp now - ts ecr + 1); 


else if (tp-»rtt && SEQ GT(ti-»ti ack, -tp->t rtseq)) 
tcp xmit timer(tp, tp-»t rtt); 


如 果 报 文 段 中 存在 时 间 惟 (ts_present)，RTT 测 量 值 等 于 当前 时 间 (tcp_now) 减 去 回 显 
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如 果 不 存 在 时 间 惟 ,但 收 到 的 ACK 报 文 确认 了 一 个 正在 计时 的 数据 报 文 ， 这 种 情况 下 
RTT 估 计 强 也 将 被 更 新 。 每 个 TCP 控 制 块 (t_rtt) 中 只 存在 一 个 RTT 计 数 姻 ， 因 此 ， 在 一 条 连 
接 上 只 可 能 对 一 个 特定 数据 报 文 计时 。 这 个 报 文 发 送 时 的 起 始 序 号 存储 在 t_rtseq 中 ,与 收 
到 的 ACK 比 较 ， 可 以 确定 该 报 文 对 应 ACK 返 回 的 时 间 。 如 果 收 到 的 确认 序号 (ti_ack) 大 于 正 
在 计时 的 数据 报 文 起 始 序 号 (t_rtseq),，t_rtt 即 为 RTT 新 的 样本 ， 从 而 更 新 RTT 估 计 器 。 

在 支持 RFC 1323 的 时 间 稚 功能 之 前 ，t rtt 是 TCP 测 量 RTT 的 唯一 方法 。 但 这 

个 变量 还 用 作 确 认 报 文 段 是 否 被 计时 的 标志 (图 25-8): Jet rtt X 90, 1 

tcp_slowtimo 每 陪 500ms 完 成 t_rtt 的 加 1 操作 ; A, t rtt 非 索 时 ， 它 等 于 所 

用 的 滴答 数 再 加 1。 我 们 将 看 到 ,tcpP_xmit time 函数 中 对 得 到 的 第 二 个 参数 减 1， 

以 纠正 上 述 偏 差 。 因 此 ,使 用 时 间 蕉 时 ， 向 tcp_xmit_timer 传 送 的 第 二 个 参数 必 

须 加 1， 以 保持 一 致 。 


序号 的 大 于 判定 是 因为 ACK 是 累积 的 : 如 果 TCP 发 送 并 计时 的 报 文 序号 为 1~1024 
(t_rtseq 等 于 1)， 然 后 立即 发 送 ( 但 未 计时 ) 下 一 个 报 文 序号 为 1025~2048， 接 着 收 到 一 个 
ACK 报 文 ， 其 上 ti_ack 等 于 2049， 它 确认 了 序号 1~2048， 即 同时 确认 了 第 一 个 计时 报 文 和 第 
二 个 未 计时 报 文 。 注 意 ， 如 果 使 用 了 RFC 1323 定 义 的 时 间 惟 ， 则 不 存在 序号 比较 问题 。 如 果 
对 端 发 送 了 时 间 惟 选项 ， 意 味 着 它 填 和 人 了 回应 时 间 (ts_ecr)， 从 而 可 直接 计算 RTT。 

图 25-23 给 出 了 函数 更 新 RTT 估 算 值 的 部 分 代码 。 


1310 void icini 
1311 tcp mat timer(tp, rtt) 

1312 struct tcpcb "tp; 

1313 short rtt; 

1314 4 

1315 short delta; 

1315 tcpstat.tcps rttupdated--«; 

1317 if (tp-»t.sttt f= 0] 1 

1318 p* 

1319 * srtt is stored as fixed point with 3 bits after the 
1320 * binary point (i.e., scaled by 8). The following magic 
1321 * is equivalent to the smoothing algorithm in rfc793 with 
l3242 * an alpha of .875 (srtt s rtt/8 4 srtt*7/8 in fixed 
1323 * point). Adjust rtt to origin O0. 

1324 */ 

1325 delta = rtt = l = [bp-»t srtt >> TCP RTT SHIFT); 

1326 if ((tp-»t srtt += delta) «s 0) 

1327 Cp-»t srtt s 1; 

1328 pn 

1329 * We accumulate a smoothed rtt variance (actually, a 
1330 * smoothed mean difference), then set the retransmit 
1331 * timer to smoothed rtt + 4 times the smoothed variance. 
1332 * rttvar is stored as fixed point with 2 bits after the 
1333 * binary point (scaled by 4). The following is 

1334 * equivalent to rfc793 smoothing with an alpha of .75 
1335 * (rttvar = rttvar*3/4 + |delta| / 4). This replaces 
1336 * rfc793's wired-in beta. f 

1337 *y 


图 25-23 tcp xmit timertAZkr: 利用 新 的 RTT 测 量 值 计 算 已 平滑 的 RTT 估 计 器 
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1338 if (delta < 0) 
1339 delta - -delta; 
1340 delta -- (tp-»t rttvar »» TCP RTTVAR SHIFT); 
1341 if ((tp-»t rttvar t= delta) «- 0) 
1342 tp-»t rttvar = ij 
1343 ) else ( 
1344 / 
1345 * No rtt measurement yet - use the unsmootnhed rtt. 
1346 * Set the variance to half the rtt (so our first 
1347 * retransmit happens at 3*rtt). 
1348 und 
1349 tp-»t srtt = rtt << TCP RTT SHIET; 
1350 tp-»t.rttvar s rtt «« (TCP RTTVAR.SHIFT = 1); 
13541 ) : 
tcp input.c 
图 25-23 (£x) 
1. 更 新 已 平滑 的 RTT 估 计 颖 


1310-1325 前 面 已 介绍 过 ，tcp _newtcpcb 初 始 化 已 平 请 的 RTT 估 计 器 (上 t_szrtt) 为 0， 指 
明 连 接 上 不 存在 RTT 估 计 器 。delta 是 RTT 测 量 值 与 当前 已 平 交 的 RTT 估 计 器 间 的 差 值 ， 以 未 
缩放 的 滴答 为 单位 。t_srtt 除 以 8， 单 位 从 缩放 后 的 滴答 转换 为 未 缩放 的 滴 舍 。 
1326-1327 已 平滑 的 RTT 估 计 器 用 以 下 公式 进行 更 新 : 
srtt——srtt-g X delta 
由 于 增益 g=1/8， 公 式 变 为 
8 x srtt——8 x srtt+ delta 
也 就 是 
t srtt—t srtt-4delta 
1328-1342 已 平 请 的 RTT 平 均 偏 差 估 计 器 的 计算 公式 如 下 : 
rttvar— rttvar-h(| delta|—rttvar) 


将 h=1/4 和 缩放 后 的 t_rttvar=4 xXxrtitvar 代 入 ， 得 到 : 


del | t TLLVar 
& was tar DAE D- 7  — 
OSSA + 
也 就 是 
t rttvar 
t rttvar« t rttvar-|delta | as aA 


最 后 一 个 表达 式 即 为 C 代 码 中 的 表达 式 。 
2. 第 一 次 测量 RTT 时 初始 化 平滑 的 估计 咒 值 
1343-1350 如 果 是 首次 测量 某 连 接 的 RTT 值 ， 已 平滑 的 RTT 估 计 器 初始 化 为 测量 得 到 的 样 
本 值 。 下 面 的 计算 用 到 了 参数 rtt ， 前 面 已 介绍 过 ztt 等 于 测量 到 的 RIT 值 加 1(Czticks+1)， 而 
前 面 公式 中 用 到 的 aelta 是 从 ztt 中 减 1 得 到 的 。 
srtt=nticks+1 


> 
或 


t srtt . 
—— ——— = nticks +1 
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也 就 是 


t_srtt=(nticks+1)x 8 


平均 偏差 等 于 测量 到 的 RTT 值 的 一 半 : 


srtt 
rttvar = —— 
2 
Ur 
t rttvar  nticks*]l 
Z 2 
或 者 


t rttvar-z(nticks*1l) x2 
代码 中 的 注释 指出 ， 已 平 请 的 平均 偏差 的 这 种 初始 取 值 使 得 RTO 的 初始 值 等 于 3 x srtt。 因 为 
RTO=srtt+4 x rttvar 


替换 掉 rtvar， 得 到 : 


RTO - srtt Ax 77 


也 就 是 
RTO=3 x srtt 
KI25-24⁄5 iH Ttcp_xmit_timer Á% ia — AAE., 
1352 tp->t_rtt = 0; MPIPS 
1353 tp-»t.rxtshift = 0; 
1354 j^ 
1355 * the retransmit should happen at rtt + 4 * rttvar. 
1356 * Because of the way we do the smoothing, srtt and rttvar 
1354 * will each average «1/2 tick of bias. When we compute 
1358 * the retransmit timer, we want 1/2 tick of rounding and 
1359 * 1 extra tick because of -«-1/2 tick uncertainty in the 
1360 * firing of the timer. The bias will give us exactly the 
1361 * 1.5 tick we need. But, because the bias is 
1362 * statistical, we have to test that we don't drop below 
1363 * the minimum feasible timer (which is 2 ticks). 
1364 "y 
1365 TCPT_RANGESET (tp->t_rxtcur, TCP_REXMTVAL (tp), 
1366 tp->t_rttmin, TCPTV_REXMTMAX) ; 
1367 > 
1368 * We received an ack for a packet that wasn't retransmitted; 
1369 * it is probably safe to discard any error indications we've 
1370 * received recently. This isn't quite right, but close enough 
1371 * for now (a route might have failed after we sent a segment, 
1372 * and the return path might not be symmetrical). 
1173 Wf 
1374 tp-»t softerror = 0; 
1375 ) 


tcp input.c 
图 25-24 tcp xmit timer 国 数 : 最 后 一 部 分 


1352-1353  RIT 计 数 右 (t_ztt) 和 重 传 移 位 计数 器 (上 t_rxtshift) 同 时 复位 为 0， 为 下 一 个 
报 文 的 发 送 和 计时 做 准备 。 
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1354-1366 连接 的 下 一 个 RTO(t rxtcur) 计 算 用 到 宏 
#define TCP REXMTVAL(tp) ^ 
(((tp)-»t srtt >> TCP RTT SHIFT) + (tp)-»t ttvar) 


其 实 ， 这 就 是 我 们 很 熟悉 的 公式 
RTO=srtt+4 x rtivar 

用 tcp_xmit timer 更 新 过 的 缩放 后 的 变量 禁 代 上 式 中 的 srtt 和 rttvar， 得 到 宏 的 表达 

X: 
C SECU E fttvar t SrtE 

E 4 8 

此 外 ，R7O 取 值 应 在 规定 范围 之 内 ， 最 小 值 为 连接 上 设 定 的 最 小 RIO(t_Fttmin， 
t newtcpcb 初 始 化 为 2 个 滴答 )， 最 大 值 为 128 个 滴答 (TCPTV_REXMTMAX)。 

3. 清除 软 错误 变量 
1367-1374 由 于 只 有 当 收 到 了 已 发 送 的 数据 报 文 的 确认 时 ， 才 会 调用 tcp_xmit_timer， 如 
果 连 接 上 发 生 了 软 错 误 (t_softerror), 该 错误 将 被 丢弃 。 下 一 市 中 将 详细 讨论 软 错误 。 


25.11 重 传 超时 : tcp timers 函 数 


我 们 现在 回 到 tcp_timers 国 数 ， 讨 论 25.6 节 中 未 涉及 的 最 后 一 个 case 语 句 : 处 理 重 传 
定时 器 。 如 果 在 RTO 内 没有 收 到 对 端 对 一 个 已 发 送 数据 报 的 确认 ， 则 执行 此 段 代 码 。 

图 25-25 小 结 了 重 传 定时 器 的 操作 。 假 定 tcp_output 计 算 的 报 文 首次 重 传 时 限 为 1.5 秒 ， 
这 是 LAN 的 典型 值 (参见 卷 1 的 图 21-1)。 


RTO +4x +t_rttvar 


24 48 64 64 64 64 64 64 64 f) 


| "465 ^ 945 158.5 222.5 286.5 350.5 414.5 478.5 542.5 
| i s (6) (7) (8) (9) (10) (11) (12) (13) 
| id t 
| ME tcp drop() 
15, 3 b 12 #b -x 
015 45 10.5 22.5 
(1) (2) (3) («€ t <xtshift 的 新 值 


图 25-25 发 送 数 据 时 重 传 定 时 器 小 结 


x 轴 为 时 间 轴 ， 以 秒 为 单位 ， 标 注 依次 为 : 0、1.5、4.5 等 等 。 这 些 数字 的 下 方 ， 给 出 了 代 
码 中 用 到 的 t_rxtshift 的 值 。 连 续 12 次 重 传 后 ， 总 共 为 542.5 秒 ( 约 9 分 钟 )，TCP 将 放弃 并 于 
弃 连 接 。 
RFC 793 建 议 在 建立 新 连接 时 ， 无 论 主动 打开 或 被 动 打开 ， 应 定义 一 个 参数 规定 
TCP 发 送 数据 的 总 时 限 ， 也 就 是 TCP 在 放弃 发 送 并 丢弃 连接 之 前 试图 传输 给 定数 据 报 
文 的 总 时 间 。 推 荐 的 默认 值 为 5 分 钟 。 
RFC 1122 要 求 应 用 程序 必须 为 连接 指定 一 个 参数 ， 限 定 TCP 总 的 重 传 次 数 或 者 
TCP 试 图 发 送 数 据 的 总 时 间 。 这 个 参数 如 果 设 为 “无 限 "， 那 么 TCP 永 不 会 放弃， 还 
可 能 不 允许 终端 用 户 终止 连接 。 
在 代码 中 可 看 到 ，Net/3 不 支持 应 用 程序 的 上 述 控制 权 : TCP 放 弃 传 输 之 前 的 重 
传 次 数 是 固定 的 (12)， 所 用 的 总 时 间 取 决 于 RIT。 
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图 25-26 给 出 了 重 传 超时 case 语 句 的 前 半 部 分 。 


"T "m tcp ttmer.c 

141 * Retransmission timer went off. Message has not 

142 * been acked within retransmit interval. Back off 

143 * to a longer retransmit interval and retransmit one segment. 

144 a 

145 case TCPT REXMT: 

146 if (*««tp-»t rxtshift > TCP MAXRXTSHIFT) ( 

147 tp-»t rxtshift = TCP MAXRXTSHIFT; 

148 tcpstat.tcps timeoutdrop-t-*; 

149 tp = tcp drop(tp, tp-»t softerror 了 

150 tp-»t softerror : ETIMEDOUT); 

151 break; 

152 } 

153 tcpstat.tcps rexmttimeo-s-^; 

154 rexmt - TCP REXMTVAL(tp) * tcp backoff[tp-»t rxtshift]; 

155 TCPT RANGESET(tp-»t rxtcur, rexmt, 

156 tp-»t rttmin, TCPTV REXMTMAX); 

157 tp-»t timer([TCPT REXMT] = tp-»t.rxtcur; 

158 ， dd 

159 * If losing, let the lower level know and try for 

160 * a better route. Also, if we backed off this far, 

161 * our srtt estimate is probably bogus.  Clobber it 

162 * so we'll take the next rtt measurement as our srtt; 

163 * move the current srtt into rttvar to keep the current 

164 * retransmit times until then. 

165 ui 

166 if (tp-»t rxtshift > TCP MAXRXTSHIFT / 4) ( 

167 in losing(tp-»t inpcb); 

168 tp-»t rttvar t= (tp-»t srtt >> TCP.RTT. SHIFT); 

169 tp-»t srtt = 0; 

170 ) 

1.171. tp-»snd nxt = tp-»snd una; 

172 g~ 

173 * If timing a segment in this window, stop the timer. 

174 "y 

175 tp-»t rtt s 0; 
tcp. timer.c 


图 25-26 tcp timers 图 数 : 重 传 定时 器 超时 ， 前 半 部 分 


1. 递增 移 位 计数 器 
146 重 传 移 位 计数 器 (t_rxtshift) 在 每 次 重 传 时 递增 , 如 果 大 于 12(TCP MAXRXTSHIFT), 
连接 将 被 丢弃 。 图 25-25 给 出 了 t_rxtshift 每 次 重 传 时 的 取 值 。 请 注意 两 种 丢弃 连接 的 区 别 : 
由 于 收 不 到 对 端 对 已 发 送 数 据 报 文 的 确认 而 造成 的 丢弃 连接 ， 以 及 由 于 保 活 定时 器 的 作用 在 
长 时 间 空 闲 且 收 不 到 对 端 啊 应 时 的 丢弃 连接 。 两 种 情况 下 ，TCP 都 会 癌 应 用 进程 报告 
ETIMEDOUT 差 错 ， 除 非 连接 收 到 了 一 个 软 错误 。 

2. 丢弃 连接 
147-152 软 错误 指 不 会 导致 TCP 终 止 已 建立 的 连接 或 正 试图 建立 的 连接 的 错误 ， 但 系统 会 
记录 出 现 的 软 错误 ， 以 备 TCP 将 来 放弃 连接 时 参考 。 例 如 ， 如 果 TCP 重 传 SYN 报 文 段 ， 试 图 建 
立新 的 连接 ， 但 未 收 到 啊 应 ，TCP 将 同 应 用 进程 报告 ETIMEDOUT 差 错 。 但 如 有 果 在 重 传 期 间 ， 
收 到 一 个 ICMP “主机 不 可 达 ” 差 错 代 码 ，tcp_notify 会 在 t_softerror 中 存储 这 一 软 错 
误 。 如 果 TCP 最 终 决 定 放 弃 重 传 ， 返回 给 应 用 进程 的 差错 代码 将 为 EHOSTUNREACH， 而 不 是 
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ETIMEDOUT， 从 而 癌 应 用 进程 提供 了 更 多 的 信息 。 如 果 TCP 发 送 SYN 后 ， 对 端的 啊 应 为 RST， 
这 是 个 硬 错误 ， 连 接 立 即 被 终止 ， 返 回 差 错 代 码 ECONNREUSED( 图 28-18)。 

3. 计算 新 的 RTO 
153-157 利用 TCP_REXMTVAL 宏 实现 指数 退 避 ， 计 算 新 的 RTO 值 。 代 码 中 ， 给 定 报 文 第 一 
次 重 传 时 t _rxtshift 等 于 1， 因 此 ，RTO 值 为 TCP REXMTVRAEL 计 算 值 的 两 倍 。 新 的 RTO 值 
存储 在 t_rxtcur 中 ， 供 连接 的 重 传 定时 器 一 一 t timer[TCPT REXMT] 一 一 使 用 ， 
tcp_input 在 启动 重 传 定时 絮 时 会 用 到 它 (图 28-12 和 图 29-6)。 

4. 向 IP 询 问 更 换 路 由 
158-167 如 果 报 文 段 已 重 传 4 次 以 上 ，in_losing 将 释放 缓存 中 的 路 由 (如 果 存 在 )， 
tcp_output 再 次 重 传 该 报 文 时 (图 25-27 中 case 语 句 的 结尾 处 )， 将 选择 一 条 新 的 ， 也 许 好 一 
些 的 路 由 。 从 图 25-25 可 看 到 ， 每 次 重 传 定时 器 超时 时 ， 如 果 重 传 时 限 已 超过 22.5 秒 ， 将 调用 
in losing, 

S. iBBRRTT fh ilex 
168-170 fVRB, EPERBJRTT(SIES(C srtt)W EJJO(t newtcpcbrhe KRII 
0), sRiütcp xmit timerdJfh|—^-RTTJI [RT EZCCOERBIJRTT(ai i, AE AAR E 
重 传 次 数 已 超过 4 次 ， 意 味 着 TCP 的 已 平滑 的 RTT 估 计 器 可 能 已 失效 。 若 重 传 定 时 器 再 次 超时 ， 
进入 case 语 名 后 ， 将 利用 TCP_REXMTVRAL 计 算 新 的 RTO 值 。 由 于 t_szrtt 被 置 为 0， 新 的 计 
算 值 应 与 本 次 重 传 中 的 计算 值 相同 ， 再 利用 指数 退 避 算法 加 以 修正 (图 25-28 中 ， 在 42.464 秒 处 
的 重 传 很 好 地 说 明了 上 面 讨论 的 概念 )。 

再 次 计算 RTO 时 ， 利 用 公式 


Wo t rit 


TL rtbvar 

由 于 t_srtt 等 于 0，RTO 取 值 不 变 。 如 果 报 文 的 重 传 定时 器 再 次 超时 (图 25-28 中 从 84.064 
秒 到 217.84 秒 )，case 语 句 再 次 被 执行 ，t srttSETO, t rttvar 不 变 。 

6. 强迫 重 传 最 早 的 未 确认 数据 
171 下 一 个 发 送 序 号 (snd_nxt) 被 置 为 最 早 的 未 确认 的 序号 (snd_una)。 回 想 图 24-17 中 ， 
snd_nxt 大 于 snd_una。 把 snd_nxt 回 移 ， 将 重 传 最 早 的 未 确认 过 的 报 文 。 

7. Karn 算 法 
172-175 RTT 计数器 ，t_rtt， 被 置 为 0。Karn 算 法 认为 由 于 该 报 文 即将 重 传 ， 对 该 报 文 的 
计时 也 就 失去 了 意义 。 即 使 收 到 了 ACK， 也 无 法 区 分 它 是 对 第 一 次 报 文 ， 还 是 对 第 二 次 报 文 
的 确认 。[Karn and Partridge 1987] 和 卷 1 的 21.3 市 中 都 介绍 了 这 一 算法 。 因 此 ，TCP 只 对 未 重 
传 报 文 计时 ， 利 用 t_rtt 计 数 器 得 到 样本 值 ， 并 据 此 修正 RTT 估 计 器 。 在 后 面 的 图 29-6 中 将 
看 到 ， 如 何 使 用 RFC 1323 的 时 间 惟 功能 取代 Karn 算 法 。 


25.11.1 慢 起 动 和 避免 拥塞 


图 25-27 给 出 了 case 语 句 的 后 半 部 分 ， 实 现 慢 起 动 和 如 免 拥 塞 ， 并 重 传 最 早 的 未 确认 过 
的 报 文 。 

由 于 重 传 定时 器 超时 ， 网 络 中 很 可 能 发 生 了 拥塞 。 这 种 情况 下 ， 需 要 用 到 TCP 的 拥塞 避 
免 算法 。 如 果 最 终 收 到 了 对 端 发 送 的 确认 ，TCP 采 用 慢 起 动 算法 以 较 慢 的 速率 继续 进行 数据 
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传输 。 卷 1 的 20.6 节 和 21.6 节 详细 讨论 了 这 两 种 算法 。 
176-205 win 被 置 为 现 有 窗口 大 小 (接收 方 通告 的 窗口 大 小 snda_wnda 和 发 送 方 拥塞 窗口 大 小 
snd cwnd， 两 者 之 中 的 较 小 值 ) 的 一 半 ， 以 报 文 为 单位 ， 而 非 字 市 (因此 除 以 t_maxseg)， 
最 小 值 为 2。 它 的 值 等 于 网 络 拥塞 时 现 有 窗口 大 小 的 一 半 ， 也 就 是 慢 起 动 门限 ， 
t_ssthresh( 以 字 节 为 单位 ， 因 此 乘 以 t_maxseq)。 拥 塞 窗口 的 大 小 ，snd_cwnd， 被 置 为 
只 容纳 1 个 报 文 ， 强 迫 执行 慢 起 动 。 上 述 做 法 假定 造成 网 络 拥塞 的 原因 之 一 是 本 地 数据 发 送 太 
快 ， 因 此 在 拥塞 发 生 时 ， 必 须 降 低 发 送 窗口 大 小 。 
这 段 代 码 放 在 一 对 括号 中 ， 是 因为 它 是 在 4.3BSD 和 Net/1 实 现 之 间 添 加 的 ， 并 要 

求 有 自己 的 局 部 变量 (win)。 
206 连续 重复 ACK 计 数 器 ，t_dupacks (用 于 29.4 节 中 将 介绍 的 快速 重 传 算法 ) 被 置 为 0。 我 
们 将 在 第 29 章 中 介绍 它 在 TCP 快 速 重 传 和 快速 恢复 算法 中 的 用 途 。 
208 tcp output 重新 发 送 包 含 最 早 的 未 确认 序号 的 报 文 ， 即 由 于 重 传 定时 器 超时 5| 发 了 
报 文 重 传 。 


pe m tcp timer.c 

A77 * Close the congestion window down to one segment 

178 * (we'll open it by one segment for each ack we get). 

179 * Since we probably have a window's worth of unacked 

180 * data accumulated, this "slow start" keeps us from 

181 * dumping all that data as back-to-back packets (which 

182 * might overwhelm an intermediate gateway). 

183 * 

184 * There are two phases to the opening: Initially we 

185 * open by one mss on each ack. This makes the window 

186 * size increase exponentially with time. If the 

187 * window is larger than the path can handle, this 

188 * exponential growth results in dropped packet(s) 

189 * almost immediately. To get more time between 

190 * drops but still "push" the network to take advantage 

191 * of improving conditions, we switch from exponential 

192 * to linear window opening at some threshhold size. 

193 * For a threshhold, we use half the current window 

194 * size, truncated to a multiple of the mss. 

195 " 

196 * (the minimum cwnd that will give us exponential 

197 * growth is 2 mss. We don't allow the threshhold 

198 * to go below this.) 

199 i d 

200 ( 

201 ü. lint win = min(tp-»snd wnd, tp-»snd cwnd) / 2 / tp-»t maxseg; 

202 if (win « 2) 

203 win e 2; 

204 tp-»snd cwnd = tp-»t maxseg; 

205 tp-»snd ssthresh = win * tp-»t maxseg; 

206 tp-»t.dupacks = 0; 

207 ) 

208 (void) tcp output(tp); 

209 break; , 
tcp timer.c 


图 25-27 tcp timer: 重 传 定时 器 超时 ， 后 半 部 分 
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25.11.2 精确 性 


TCP 维 护 的 这 些 估计 器 的 精确 性 如 何 呢 ? 首先 应 指出 ， 因 为 RIT 以 500 ms 为 测量 单位 ， 是 
非常 不 精确 的 。 已 平 请 的 RIT 估 计 右 和 平均 偏差 的 精确 性 要 高 一 些 (缩放 因子 为 8 和 4)， 但 也 不 
够 ，LAN 的 RTT 是 毫秒 级 ， 横 跨 大 陆 的 RIT 约 为 60ms 左 右 。 这 些 估计 绒 仅 仅 给 出 了 RTT 的 上 
限 ， 从 而 在 设 定 重 传 定时 絮 时 ， 可 以 不 考虑 由 于 重 传 时 限 过 小 而 造成 不 必要 的 重 传 。 

[Brakmo, O'Malley, and Peterson 1994] 摘 述 的 TCP 实 现 ， 能 够 提供 高 精度 的 RIT 样 本 。 他 
们 的 做 法 是 ， 发 送 报 文 段 时 记录 系统 时 钟 读数 (精度 比 以 500 ms 为 测量 单位 要 高 得 多 )， 收 到 
ACK 时 再 次 读 取 系 统 时 钟 ， 从 而 得 到 高 精度 的 RIT。 

Net/3 支 持 的 时 间 玲 功能 (26.6 市 ) 本 来 可 以 提供 较 高 精度 的 RTT， 但 Net/3 将 时 间 堆 的 精度 
也 定 为 500 ms, 


25.12 一 个 RTT 的 例子 


下 面 讨 论 一 个 具体 的 例子 ， 说 明 上 述 计算 是 如 何 进行 的 。 我 们 从 主机 bsai 回 
vangogh .cs .berkeley.edu 发 送 12288 字 节 的 数据 。 在 发 送 过 程 中 ， 故 意 断 开工 作 中 的 
PPP 链 路 ， 之 后 再 恢复 ， 看 看 TCP 如 何 处 理 报 文 的 超时 与 重 传 。 为 发 送 数据 ， 我 们 运行 目 己 的 
sock 程 序 ( 参 见 卷 1 的 附录 C)， 加 -D 选 项 ， 置 位 插口 的 SO_DEBUG 选 项 (27.10 市 )。 传 输 结束 后 ， 
运行 trpt (8) 程 序 检查 留 在 内 核 的 环形 缓存 中 的 调试 记录 ， 之 后 打印 TCP 控 制 块 中 我 们 感 兴 
趣 的 时 钟 变量 。 

”图 25-28 列 出 了 各 变量 在 不 同时 刻 的 值 。 我 们 用 M: N 表 示 序 号 M~N 一 1 已 被 发 送 。 本 例 中 
的 每 个 报 文 段 都 携带 了 512 字 市 的 数据 。 符 号 “ACK M” 表示 ACK 报 文 的 确认 字段 为 M。 标 
注 “ 实 际 差 值 (ms)” 栏 列 出 了 RTT 定 时 器 打开 时 刻 和 关闭 时 刻 间 的 时 间 差 值 。 标 注 “rtt (A 
数 )” 栏 列 出 了 调用 tcp_xmit_timer 时 第 二 个 参数 的 值 : RTT 定 时 器 打开 时 刻 和 关闭 时 刻 
间 的 滴答 数 再 加 1。 

tcp newtcpcb 畏 数 完 成 t_Ssrtt 、t 上 _zrttvar 和 ft_xxtcuzr 的 初始 化 ， 时 刻 0.0 对 应 的 
即 为 变量 初始 值 。 

第 一 个 计时 报 文 是 最 初 的 SYN 报 文 , 365 ms 后 收 到 了 对 端的 ACK, Wfitcp xmit timer, 
rtt 参 数值 为 2。 由 于 这 是 第 一 个 RTT 测 量 值 (t_srtt=0)， 执行 图 25-23 中 的 else 语 句 ， 计 算 
RTT(&itz$9 518. 

携带 1~512 字 市 的 数据 报 文 是 第 二 个 计时 报 文 ，1.259 秒 时 收 到 对 应 的 ACK，RTT 估 计 絮 
被 更 新 。 

从 接 下 来 的 三 个 报 文 可 看 出 ， 连 续 报 文 是 如 何 被 确认 的 。1.260 秒 时 发 送 携 带 513~1024 字 
节 的 报 文 ， 并 启动 定时 器 。 之 后 又 发 送 了 携带 1025~1526 字 市 的 报 文 ， 在 2.206 秒 时 收 到 了 对 
端的 ACEK， 同 时 确认 了 已 发 送 的 两 个 报 文 。RTT 估 计 绒 被 更 新 ， 因 为 ACK 确 认 了 正 计 时 报 文 


的 起 始 序号 (513)。 
2.206 秒 时 发 送 携带 1537~2048 字 天 的 报 文 ， 并 局 动 定时 右 。3.132 秒 时 收 到 对 应 的 ACK， 
RTT 估 计 器 被 更 新 。 


对 3.132 秒 时 发 送 的 报 文 段 计时 ， 重 传 定时 器 设 为 5 个 滴答 (t_rxtcur 的 当前 值 )。 这 时 ， 
路 由 器 sun 和 netb 间 的 PPP 链 路 中 断 ， 几 分 钟 后 恢复 正 第 。 重 传 定 时 器 在 6.064 秒 超时 ， 执 行 
图 25-26 中 的 代码 更 新 RTT 变 量 。t rxtshift 从 0 增 至 1,，t rxtcur 置 为 10 个 泣 答 (指数 退 
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如 )， 重 传 最 早 的 未 确认 过 的 序号 (snd_una=3073)。5 秒 钟 后 ， 定 时 器 再 次 超时 ， 
上 t_rxtshift 递 增 为 2， 重 传 定时 器 设 为 20 个 滴答 


ri RTT | 实际 时 间 差 | rtt E „ertt |t rttvar|t rxtcur 
es 


SYN 
6 SYN, ACK of 365 ; 
0.365 
0.415 1:513 
1.259 ack 513 


513:1025 
1025:1537 
ack 1537 


1537:2049 
2049:2561 
2561:3073 
ack 2049 
3073:3585 
3585:4097 
ack 2561 


4097:4609 


4609:5121 

ack 3073 
5121:5633 
5633:6145 


3073:3585 

3073:3585 

3073:3585 

3073:3585 

: 3073:3585 

150.624 3073:3585 

217.184 3073:3585 
217.944 ack 6145 


217.944 | 6145:6657 on | 
on 
ack 7169 E 
ack7681 | off 926 2 22 7 


217.945 6657:7169 
ack 8705 





















218.834 
218.834 
218.836 
219.209 
219.209 
219.760 






7169:7681 
7681:8193 








8193:8705 


8705:9217 










9217:9729 
9729:10241 
10241:10753 











ack 9217 









10753:11265 





221.310 ack 9729 
221.310 
221.312 
221.312 
221.674 


221.955 






11265:11777 






ack 10241 





11777:12289 





ack 10753 
ack 11265 


图 25-28 实例 中 的 RIT 变 量 值 和 估计 器 


42.464 秒 时 ， 重 传 定 时 妖 再 次 超时 ，t_srtt 清 零 ,t_rttvazr 置 为 5。 我 们 在 图 25-26 的 
讨论 中 提 到 过 ， 此 时 t_rxtcuri 运算 得 到 的 结 着 和 相同 (因此 ， 下 一 次 运算 的 结果 应 为 160)。 但 
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由 于 t_srtt 重 置 为 90%， 下 一 次 更 新 RTT 估 计 器 时 (218.834 秒 )， 与 建立 一 条 新 的 连接 相 类 似 ， 
得 到 的 RTT 测 量 值 将 成 为 新 的 已 平滑 的 RTT 佑 计 器 。 
之 后 继续 进行 数据 传输 ， 并 且 又 多 次 更 新 了 RTT 估 计 器 。 


25.13 A 


内 核 每 隔 200 ms 和 500 ms， 分 别 调用 kcp_fasttimo 国 数 和 tcp _ slowtimo 国 数 。 这 两 
个 函数 负责 维护 TCP 为 连接 建立 的 各 种 定时 器 。 

TCP 为 每 条 连接 维护 下 列 7 个 定时 器 : 

* 重 传 定时 器 ，; 

e WE IRACK E AF ; 

* PEERS ; 

* FIN WAIT 2^ElT 2s ; 

。2MSL 定 时 器 。 

延迟 ACK 定 时 器 与 其 他 6 个 定时 器 不 同 , 设置 它 时 意味 着 下 一 次 TCP200 ms 定时 器 超时 时 ， 
延迟 的 ACK 报 文 必须 被 发 送 。 其 他 6 个 定时 器 都 是 计数 器 ， 每 次 TCP 500 ms 定时 器 超时 时 ， 
计数 器 减 1。 任 何 一 个 计数 器 减 为 0 时 ， 触 发 TCP 完 成 相应 动作 丢弃 连接 、 重 传 报 文 、 发 送 
连接 探测 报 文 等 等 ， 这 些 内 容 本 章 中 都 有 详细 讨论 。 由 于 某 些 定时 器 是 彼此 互 斥 的 ， 代 码 用 4 
个 计数 器 实 现 了 这 6 个 定时 器 ， 复 杂 性 有 所 增加 。 

本 章 还 介绍 了 重 传 定时 器 取 值 的 标准 计算 方法 。TCP 为 每 条 连接 维护 两 个 RTT 估 计 器 : 已 
平 请 的 RIT 估 计 器 (srtD 和 已 平滑 的 RITT 平 均 偏 差 估计 器 (rttvar)。 尽 管 算 法 简单 清楚 ， 但 由 于 
使 用 了 缩放 因子 (在 不 使 用 内 核 浮 点 运算 的 情况 下 保证 足够 的 精度 )， 使 得 代码 较为 复杂 。 


习题 


25.1 ITCP 快 速 超时 处 理 国 数 的 效率 如 何 ? (提示 : 参考 图 24-5 中 列 出 的 延迟 ACK 的 次 数 ) 
有 没有 另外 的 实现 方式 ? 
25.2 为 什么 在 tcp_slowtimo 函 数 ， 而 不 是 在 tcp _init 函 数 中 初始 化 Lcp maxidle? 
25.3 tcp slowtimo3x$JÉt idle， 前 面 已 介绍 过 t idle 用 于 计数 从 连接 上 收 到 最 后 
一 个 报 文 起 到 当前 为 止 的 滴答 数 。TCP 是 否 需 要 计数 从 连接 上 发 送 最 后 一 个 报 文 段 起 计时 的 
空 闪 时 间 ? 
25.4 重 写 图 25-10 中 的 代码 ， 分 离 TCPT 2MSL 计 数 器 两 种 不 同 用 法 的 处 理 逻 辑 。 
25.5 图 25-12 中 ， 连 接 进 入 FIN_WIN_2 状 态 75 秒 后 收 到 一 个 重复 的 ACK。 会 发 生 什么 ? 
25.6 应 用 程序 设置 SO_KEEPRALIVE 选 项 时 连接 已 空 本 了 1 小 时 。 第 一 次 连接 探测 报 文 在 
何 时 发 送 ，1 小 时 后 还 是 2 小 时 后 ? 
25.7 为 什么 tcp_rttaflt 是 一 个 全 局 变量 ， 而 非常 量 ? 
25.8 重 写 与 习题 25.6 有 关 的 代码 ， 实 现 另 一 种 结果 。 
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国 数 上 tcp_output 负 责 发 送 报 文 段 ， 代 码 中 有 很 多 地 方 都 调用 了 它 。 

tcp_usrreq 在 多 种 请 求 处 理 中 调用 了 这 一 函数 : 处 理 PRU_CONNECT， 发 送 初 始 
SYN, 处 理 PRU_SHUTDOWN， 发 送 FIN; 处 理 PRU RCVD， 应 用 进程 从 插口 接收 缓存 中 读 取 
硅 干 数据 后 可 能 需要 发 送 新 的 窗口 大 小 通告 ,处理 PRU_SEND，, 发 送 数 据 ， 处 理 
PRU _ SENDOOB， 发 送 带 外 数据 。 

*tcp fasttimo 调 用 它 发 送 延 迟 的 ACK ; 

*tcp _ timezrs 在 重 传 定 时 右 超 时 时 ， 调 用 它 重 传 报 文 段 ， 

“tcp_timers 在 持续 定时 絮 超 时 时 ， 调 用 它 发 送 窗口 探测 报 文 段 ; 

*tcp_drop 调 用 它 发 送 RST， 

*tcp disconnect 调 用 它 发 送 FIN 

“tcp_input 在 需要 输出 或 需要 立即 发 送 ACK 时 调用 它 ， 

“tcp_input 在 收 到 一 个 纯 ACK 报 文 段 且 本 地 有 数据 发 送 时 调用 它 ( 纯 ACK 报 文 段 指 不 携 

带 数据 ， 只 确认 已 接收 数据 的 报 文 段 )，; 

“tcp_input 在 连续 收 到 3 个 重复 的 ACK 时 ， 调 用 它 发 送 一 个 单一 报 文 段 ( 快 速 重 传 

算法 )。 

tcp_input 首 先 确 定 是 否 有 报 文 段 等 待 发 送 。 除 了 存在 需要 发 往 连 接 对 端的 数据 外 ， 
TCP 输 出 还 受到 其 他 许多 因素 的 控制 。 例 如 ， 对 端 可 能 通告 接收 窗口 为 零 ， 阻 止 TCP 发 送 任何 
数据 ，Nagle 算 法 阻止 TCP 发 送 大 量 小 报 文 段 ， 慢 启动 和 避免 拥塞 算法 限制 TCP 发 送 的 数据 量 。 
相反 ， 有 些 国 数 置 位 一 些 特殊 标志 ， 强 迫 上 cpP_output 发 送 报 文 段 ， 如 TF_RACKNOW 标 志 置 位 
意味 着 必须 立即 发 送 一 个 ACK。 如 果 tcp_output 确 定 不 发 送 某 个 报 文 段 ， 数 据 ( 如 果 存 在 ) 
将 保留 在 插口 的 发 送 缓存 中 ， 等 待 下 一 次 调用 该 函数 。 


26.2 tcp output 概 述 


tcp_output 函 数 很 大 ， 我 们 将 分 14 个 部 分 予以 讨论 。 图 26-1 给 出 了 函数 的 框架 结构 。 
1. 是 否 等 待 对 端的 ACK 
61 如 果 发 送 的 最 大 序号 (snd_max) 等 于 最 早 的 未 确认 过 的 序号 (snd_una)， 即 不 等 待 对 端 
发 大 ACK，idle 为 真 。 图 24-17 中 ，idle 应 为 假 ， 因 为 序号 4~6 己 发 送 但 还 未 被 确认 ，TCP 
在 等 待 对 端 发 送 对 上 述 序号 的 确认 。 
2. 返回 慢 启 动 ; 
62-68 如 条 TCP 不 等 待 对 端 发 送 ACK， 而 且 在 一 个 往返 时 间 内 也 没有 收 到 对 端 发 送 的 其 他 
报 文 段 ,设置 拥塞 窗口 为 仅 能 容纳 一 个 报 文 段 _maxseg 字 节 )， 从 而 在 发 送 下 一 个 报 文 段 时 ， 
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强迫 执行 慢 启动 算法 。 如 果 数 据 传输 中 出 现 了 显著 的 停顿 (“ 显 车” 指 停顿 时 间 超过 RIT)， 说 
明 与 先前 测量 RTT 时 相 比 ， 网 络 条 件 已 发 生 了 变化 。Net/3 假 定 出 现 了 最 坏 情 况 ， 因 而 返回 慢 


Ii £o tcp output.c 
44 tcp output (tp) 
45 struct LPopob *tp; 
46 ( 
47 struct socket *so = tp-»t inpcb-»inp socket; 
48 long len, win; 
49 int off, flags, error; 
50 struct mbuf *m; 
51 struct téepiphdr *ti; 
52 u char Oopt[MAX TCPOPTLEN]; 
53 unsigned optlen, hdrlen; 
54 int idle, sendalot; 
55 LT 
56 * Determine length of data that should be transmitted 
57 * and flags that will be used. 
58 * If there are some data or critical controls (SYN, RST) 
59 * to send, then transmit; otherwise, investigate further. 
60 * y 
61 idle = (tp-»snd max == tp-»snd una); 
62 if (idle && tp-»t idle >= tp-»t rxtcur) 
63 y 
64 . * We have been idle for "a while" and no acks are 
65 * expected to clock out any data we send -- 
66 * slow start to get ack "clock" running again. 
67 Er 
68 tp-»snd cwnd = tp-»t maxseg; 
69 again: 
70 sendalot - 0; /* set nonzero if more than one segment to output */ 
/* look for a reason to send a segment;  */ 
/* goto send if a segment should be sent */ 
218 ja 
219 * No reason to send a segment, just return. 
220 s 
2241 return (0); 
242 send: 
/* form output segment, call ip output() */ 
489 if (sendalot) 
490 goto again; 
491 return (0); 
492 ) 
tcp output.c 
图 26-1 tcp output Hg: 框架 结构 
3. 发 送 多 个 报 文 段 


69-70 控制 跳 转 至 send 后 ， 调 用 ip_output 发 送 一 个 报 文 段 。 但 如 果 ip_output 确 定 有 
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多 个 报 文 段 需要 发 送 ，senqalot 置 为 1， 国 数 将 试图 发 送 另 一 个 报 文 段 。 因 此 ，ip_output 
的 一 次 调用 能 够 发 送 多 个 报 文 段 。 


26.3 决定 是 否 应 发 送 一 个 报 文 段 


某 些 情况 下 ， 在 报 文 段 准备 好 之 前 已 调用 了 tcp_output。 例 如 ， 当 插口 层 从 插口 的 接 
收 缓存 中 移 走 数据 ， 传 递 给 用 户 进 程 时 ， 会 生成 PRU_RCVD 请 求 。 尽 管 不 一 定 ， 但 完全 有 可 
能 因为 应 用 进程 取 走 了 大 量 数据 ， 而 使 得 TCP 有 必要 发 送 新 的 窗口 通告 。tcp_output 的 前 
半 部 分 确定 是 否 存在 需要 发 往 对 端的 报 文 段 。 如 果 没 有 ， 则 函数 返回 ， 不 执行 发 送 操作 。 

图 26-2 给 出 了 判定 “是 否 有 报 文 段 发 送 ” 测 试 代 码 的 第 一 部 分 。 


71 off - tp-»snd nxt - tp-»snd una; MILAN 
T4 win = min(tp-»snd wnd, tp-»snd cwnd); 
73 flags - tcp outflags[tp-»t state]; 
74 /* 
75 * If in persist timeout with window of 0, send 1 byte. 
76 * Otherwise, if window is small but nonzero 
Ta * and timer expired, we will send what we can 
78 * and go to transmit state. 
79 *J 
80 if (tp-»t force) ( 
81 if (win == 0) ( 
82 Pt 
83 * If we still have some data to send, then 
84 * clear the FIN bit. Usually this would 
85 * happen below when it realizes that we 
86 * aren't sending all the data. However, 
87 * if we have exactly 1 byte of unsent data, 
88 * then it won't clear the FIN bit below, 
89 * and if we are in persist state, we wind 
90 * up sending the packet without recording 
91 * that we sent the FIN bit. 
92 * 
93 * We can't just blindly clear the FIN bit, 
94 * because if we don't have any more data 
95 * to send then the probe will be the FIN 
96 t TEselr. 
97 * 7 
98 if (off « so-»so snd.sb cc) 
99 flags &- "TH FIN; 
100 win e 1 
T04 } else { 
102 tp->t_timer[TCPT_PERSIST] = 0; 
103 tp-»t, rxtshift = 0; 
104 ) 
105 ) 
tcp output.c 


图 26-2 tcp output 函数 : 强迫 数据 发 送 
71-72 off 指 从 发 送 缓存 起 始 处 算 起 指向 第 一 个 待 发 送 字 市 的 偏 移 量 ， 以 字 市 为 单位 。 它 指 
各 的 第 一 个 字 市 为 snd_una( 已 发 送 但 还 未 被 确认 的 字 市 )。 
win 是 对 端 通告 的 接收 窗口 大 小 (snda_wnd) 与 拥塞 窗口 大 小 (sna_cwnd) 间 的 最 小 值 。 
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73 ”图 24-16 给 出 了 tcp_outflags 数 组 ， 数 组 值 取决 于 连接 的 当前 状态 。f1ags 包 括 下 列 
示 志 比特 的 组 合 : TH ACK, TH.FIN, TH RST 和 TH SYN, 分 别 表示 需 向 对 端 发 送 的 报 文 段 
类 型 。 其 他 两 个 标志 比特 ，TH_PUSH 和 TH_URG， 如 果 需 要 ， 在 报 文 段 发 送 之 前 加 入 ， 与 前 4 
个 标志 比特 是 逻辑 或 的 关系 。 
74-105 上 上 _force 标 志 非 去 表示 持续 定时 绒 超 时 ， 或 者 有 带 外 数据 需要 发 送 。 这 两 种 条 件 
下 ， 调 用 tcp_output 的 代码 均 为 : 

tp-»t forcé =- 1; 


error - tcp output (tp); 
tp-»t force - 0; 


从 而 强迫 TCP 发 送 数据 ， 尽 管 在 正 第 情 况 下 不 会 执行 任何 发 送 操作 。 

如 条 win 等 于 0， 连 接 处 于 持续 状态 (因为 t_force 非 去 )。 如 果 此 时 播 口 的 发 送 缓存 中 还 
存在 数据 ， 则 FIN 标 志 被 清除 。win 必 须 置 为 1， 以 强迫 发 送 一 个 字 节 的 数据 。 

如 果 win 非 堆 ， 即 有 带 外 数据 需要 发 送 ， 则 持续 定时 硕 复 位 ， 指 数 退 避 算 法 的 索引 ， 
上 _zxtshift 被 置 为 0。 

图 26-3 给 出 了 tcp_output 的 下 一 模块 ， 计 算 发 送 的 数据 量 。 


, > tcp_output.c 
106 len = min(so-»so snd.sb cc, win) - off; 
107 if (len « O) ( 
108 l ika 
109 * If FIN has been sent but not acked, 
110 * but we haven't been called to retransmit, 
111 * len will be -1. Otherwise, window shrank 
112 * after we sent into it. If window shrank to O0, 
43 * cancel pending retransmit and pull snd nxt 
114 * back to (closed) window. We will enter persist 
LES * state below. If the window didn't close completely, 
116 * just wait for an ACK. 
117 afi 
118 len 0 
119 if (win == 0) ( 
120 tp-»t timer[TCPT REXMT] = 0; 
121 tp-»snd nxt = tp-»snd una; 
122 ) 
123 } 
124 if (len > tp->t_maxseg) ( 
125 len = tp->t_maxseg; 
126 sendalot = 1; 
127 } 
128 if (SEQ LT(tp-»snd nxt + len, tp->snd_una + so-»so snd.sb cc)) 
129 flags &- ^TH FIN; | 
T win = sbspace(&so-»so rcv); 

tcp output.c 


图 26-3 tcp_output Kğ: 计算 发 送 的 数据 量 


1. 计算 发 送 的 数据 量 
106 1len 等 于 发 送 缓存 中 比特 数 和 win( 对 端 通告 的 接收 窗口 与 拥塞 窗口 间 的 最 小 值 ， 强 迫 
TCP 发 送 数据 时 也 可 能 等 于 1 字 节 )， 两 者 间 的 最 小 值 减 去 off。 减 去 off 是 因为 发 送 缓存 中 的 
许多 字 节 已 发 送 过 ， 正 等 待 对 端的 确认 。 
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2. 窗口 缩小 检查 
107-117 造成 Len 小 于 零 的 一 种 可 能 情况 是 接收 方 缩小 了 窗口 ， 即 接收 方 把 窗口 的 右 界 移 
回 左 侧 ， 下 面 的 例子 说 明了 这 各 情况。 开始 时 ， 接 收 方 通告 接收 窗口 大 小 为 6 字 节 ，TCP 发 送 
报 文 段 ， 携 带 字 攻 4、5 和 6。 紧 接着 ，TCP 又 发 送 一 个 报 文 段 ， 携 带 字 节 7、8 和 9。 图 26-4 显 
示 了 两 个 报 文 段 发 送 后 本 地 的 状态 。 


sndq_wnd=6: 接收 窗口 


(由 接收 方 通告 ) 
1 2 3 4 5 6 7 8 9 
A 发 送 ， 疝 未 确认 
snd una=4 snd nxt = 10 
最 早 的 未 确认 的 下 一 个 发 过 媒人 号 


序号 


图 26-4 发 送 4~9 字 市 后 的 本 地 发 送 缓存 


之 后 ， 收 到 一 个 ACK， 确 认 序 号 字段 为 7( 确 认 所 有 序号 小 于 7 的 数据 ， 包 括 字 节 6)， 但 窗 
口 字段 为 1。 接 收 方 缩小 了 接收 窗口 ， 此 时 本 地 的 状态 如 图 26-5$ 所 示 。 


snd wnd-1 


O 4 Bo a J é 8 9 
发 送 ， 尚 未 确认 
snd_una=7 snd nxt = 10 
最 早 的 未 确认 过 下 一 个 发 送 序号 
的 序号 


图 26-5 收 到 4~7 字 节 的 确认 后 ， 本 地 发 送 缓存 
窗口 缩小 后 ， 执 行 图 26-2 和 图 26-3 中 的 计算 ， 得 到 : 


snd nxt - snd una 10- 72 3 
1 
min(so snd.sb cc, win) -off = min(3, 1) - 3 = -2 


假定 发 送 缓存 仅 包 含 字 节 7、8 和 9。 
RFC 793 和 RFC 1122 都 非常 不 赞成 缩小 窗口 。 尽 管 如 此 ， 具 体 实现 必须 考虑 这 一 
问题 并 加 以 处 理 。 这 种 做 法 遵循 了 在 RFC 791 中 首次 提出 的 稳健 性 原则 :“ 对 接收 报 
文 段 的 假设 尽量 少 一 些 ， 对 发 送 报 文 段 的 限制 尽量 多 一 些 。” 
造成 Len 小 于 0 的 另 一 种 可 能 情况 是 ， 已 发 送 过 FIN ， 但 还 未 收 到 确认 (见习 题 26.2)。 图 
26-6 给 出 了 这 种 情况 。 


gZ 
H 
Jd 
ll ll ll 
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已 发 送 和 确认 à : 
snd una - 10 snd nxt z 11 
最 早 的 未 确 “下 一 个 发 送 序号 
认 过 的 序号 


图 26-6 字 市 1~9 已 发 送 并 收 到 对 端 确 认 ， 之 后 关闭 连接 
图 26-6 是 图 26-4 的 继续 ， 假 定 字 节 7~9 已 被 确认 ，snqd una 的 当前 值 为 10。 应 用 进程 随后 
关闭 连接 ， 加 对 端 发 送 FIN。 在 本 章 后 续 部 分 将 看 到 ，TCP 发 送 FIN 时 ，sna_nxt 将 增加 1( 因 


为 FIN 也 需要 序号 )， 在 本 例 中 ，snd_nxt 将 等 于 11， 而 FIN 的 序号 为 10。 执 行 图 26-2 和 图 26-3 
中 的 计算 ， 得 到 : 


off = snd nxt = snd una = 11 = 10- 1 
win - 6 
len = min( so snd.sb cc, win ) - off s min(0, 6) =- 1 = -1 


我 们 假定 接收 方 通告 接收 窗口 大 小 为 6。 这 个 假定 无 关 紧 要 ， 因 为 发 送 缓存 中 竺 发送 的 字 
市 数 (0) 小 于 它 。 

3. 进入 持续 状态 
118-122 len 被 置 为 0。 如 果 对 端 通告 的 接收 窗口 大 小 为 0， 则 重 传 定 时 红 将 被 置 为 0， 任 何 
等 待 的 重 传 将 被 取消 。 令 snd_nxt 等 于 snd_una， 指 针 返 回 发 送 窗 口 的 最 左 端 ， 连 接 将 进入 
持续 状态 。 如 果 接 收 方 最 终 打 开 了 接收 窗口 ， 则 TCP 将 从 发 送 窗口 的 最 左 端 开始 重 传 。 

4. 一 次 发 送 一 个 报 文 段 
124-127 如 果 需 要 发 送 的 数据 超过 了 一 个 报 文 段 的 容量 ，len 置 为 最 大 报 文 段 长 度 ， 
sendalot 置 为 1。 如 图 26-1 所 示 ， 这 将 使 tcp_output 在 报 文 段 发 送 完毕 后 进入 另 一 次 
循环。 

S. 如 有 果 发 送 缓存 不 空 ， 关 闭 FIN 标 志 
128-129 如 果 本 次 输出 操作 未 能 清空 发 送 缓存 ，FIN 标 志 必 须 被 清除 (防止 该 标志 在 flags 
中 被 置 位 )。 图 26-7 举 例 说 明了 这 一 情况 。 

so snd.sb cc = 1025 (发 送 缓存 ) 


1 2 T 512 513 514 ds 1024 1025 
一 个 报 文 一 个 报 文 
snd_una=1l snd nxt - 513 
最 早 的 未 确认 过 下 一 个 发 送 序号 
的 序号 


图 26-7 实例 : FIN 置 位 时 ， 发 送 缓存 不 空 


这 个 例子 中 ， 第 一 个 512 字 节 的 报 文 段 已 发 送 (还 未 被 确认 )，TCP 正 准备 发 送 第 二 个 报 文 
段 (512~1024 字 节 )。 此 时 ， 发 送 缓存 中 仍 有 1 字 节 的 数据 (1025 字 节 )， 应 用 进程 关闭 了 连接 。 
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len=512( 一 个 报 文 段 )， 图 26-3 中 的 C 表 达 式 变 为 : 

SEQ LT (1025, 1026) 
如 有 本 表 达 式 为 真 ， 则 FIN 标 志 被 清除 ， 否 则 ，TCP 无 法 向 对 端 发 送 序号 为 1025 的 字 节 。 

6. 计算 接收 窗口 大 小 
130 win 设 定 为 本 地 接收 缓存 中 可 用 空间 的 大 小 ， 即 TCP 向 对 端 通告 的 接收 窗口 的 大 小 。 请 
注意 ， 这 十 第 二 次 用 到 这 个 变量 。 在 函数 前 一 部 分 中 ， 它 等 于 允许 TCP 发 送 的 最 大 数据 量 ， 
但 从 现在 起 ， 它 等 于 本 地 向 对 端 通告 的 接收 窗口 的 大 小 。 

糊涂 窗口 综合 征 (简写 为 SWS， 详 见 卷 1 的 22.3 节 ) 指 连接 上 交换 的 都 是 短 报 文 段 ， 而 不 是 
最 大 长 度 报 文 段 。 这 种 现象 的 出 现 是 由 于 接收 方 通告 的 接收 窗口 过 小 ， 或 者 发 送 方 传输 了 许 
多 小 报 文 段 ， 因 此 ， 避 免 糊涂 窗口 综合 征 ， 需 要 发 送 方 和 接收 方 的 共同 努力 。 图 26-8 给 出 了 
发 送 方 避免 糊涂 窗口 综合 征 的 做 法 。 


T e tcp output.c 
132 * Sender silly window avoidance. If connection is idle 
133 * and can send all data, a maximum segment, 

134 * at least a maximum default-sized segment do it, 

135 * or are forced, do it; otherwise don't bother. 

136 * If peer's buffer is tiny, then send 

l34 * when window is at least half open. 

138 * If retransmitting (possibly after persist timer forced us 
139 * to send into a small window), then must resend. 

140 *7 

141 if (len) 1 

142 if (len == tp-»t maxseg) 

143 goto send; 

144 if ((idle || tp-»t flags & TF NODELAY) && 

145 len « off »- so-»so snd.sb cc) 

146 goto send; 

147 if (tp-»t force) 

148 goto send; 

149 if (len »- tp-»max sndwnd / 2) 

150 goto send; 

151. if (SEQ LT(tp-»snd nxt, tp-»snd max)) 

152 goto send; 

153 ) 


tcp output.c 
图 26-8 tcp_output 国 数 : 发 送 方 避免 糊涂 窗口 综合 征 


7. 发 送 方 避免 糊涂 窗口 综合 征 的 方法 
142-143 如 采 竺 发 送 报 文 段 是 最 大 长 度 报 文 段 ， 则 发 送 它 。 
144-146 如 琳 不 需要 等 待 对 羡 的 ACK(idle 为 真 )， 或 者 Nagle 算 法 被 取消 (TF_NODELAY 为 
真 )， 并 且 TCP 正 在 清空 发 送 缓存 ， 则 发 送 数据 。Nagle 算 法 ( 详 见 卷 1 的 19.4 节 ) 的 思想 是 : 如 果 
采 个 连接 需要 等 待 对 端的 确认 ， 则 不 允许 TCP 发 送 长 度 小 于 最 大 长 度 的 报 文 段 。 通 过 设 定 插口 
选项 TCP_NODELAY， 可 以 取消 这 个 算法 。 对 于 正常 的 交互 式 连 接 (如 Telnet 或 Rlogin)， 即 使 连 
接 上 存在 未 确认 过 的 数据 ， 代 码 中 的 i£f 语 句 也 为 假 ， 因 为 默认 条 件 下 TCP 会 采用 Nagle 算 法 。 
147-148 如 采 由 于 持续 定时 器 超时 ， 或 者 有 带 外 数据 ， 强 迫 TCP 执 行 发 送 操作 ， 则 数据 将 
M AO o 
149-150 如 采 接 收 方 的 接收 窗口 已 至 少 打 开 了 一 半 ， 则 发 送 数据 。 这 个 限制 条 件 是 为 了 处 
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理 对 端 一 直 发 送 小 窗口 通告 ， 甚 至 小 于 报 文 段 长 度 的 情况 。 变 量 max_sndwnd 由 tcp_input 
维护 ， 等 于 连接 对 端 发 送 的 所 有 窗口 通告 中 的 最 大 值 。 实 际 上 ，TCP 试 图 猜测 对 端 接收 缓存 
的 大 小 ， 并 假定 对 端 永远 不 会 减 小 其 接收 缓存 。 
151-152 如 果 重 传 定时 器 超时 ， 则 必须 发 送 一 个 报 文 段 。snd_max 是 已 发 送 过 的 最 高 序号 ， 
从 图 25-26 可 知 ， 重 传 定时 器 超时 后 ，snd _ nxt 将 被 设 为 snd_ una,， 即 snd_nxt 会 指向 窗口 
的 左 侧 ， 从 而 小 于 snd_max。 

图 26-9 给 出 了 tcp_output 的 下 一 部 分 ， 确 定 TCP 是 否 必 须 向 对 端 发 送 新 的 窗口 通告 ， 
称 之 为 “窗口 更 新 ”。 


T 28 tcp output.c 
155 * Compare available window to amount of window 
156 * known to peer (as advertised window less 

157 * next expected input). If the difference is at least two 

158 * max size segments, or at least 50$ of the maximum possible 

159 * window, then want to send a window update to peer. 

160 *y 

161 it (win » 0) 4 

162 r* 

163 * "adv" is the amount we can increase the window, 

164 * taking into account that we are limited by 

165 * TCP MAXWIN «« tp-»rcv.scale. 

166 at i 

167 long adv - min(win, (long) TCP MAXWIN «« tp-»rcv scale) - 
168 (tp-»rcv adv = tp-»rcv nxt); 

169 if (adv >= (long) (2 * tp-»t  maxseg)) 

170 goto send; 

171 if (2 * adv >= (long) so-»so. rcv.sb. hiwat) 

Lis goto send; 

173 ) 


tcp output.c 


图 26-9 tcp_output 畏 数 : 判定 是 否 需要 发 送 窗 口 更 新 报 文 


154-168 表达 式 

min (win, (long) TCP MAXWIN «« tp-»rcv scale) 
等 于 插口 接收 缓存 可 用 空间 大 小 (win) 和 连接 上 所 允许 的 最 大 窗口 大 小 之 则 的 最 小 值 ， 即 TCP 
当前 能 够 向 对 端 发 送 的 接收 窗口 的 最 大 值 。 表 达 式 

(tp-»rcv adv - tp-»rcv nxt) 
等 于 TCP 最 后 一 次 通告 的 接收 窗口 中 剩余 空间 的 大 小 ， 以 字 节 为 单位 。 两 者 相 减 得 到 adv， 窗 
口 已 打开 的 字 节 数 。tcp_input 顺 序 接收 数据 时 ， 递 增 rcv_nxt。tcp_output 在 通告 窗 
口 边界 向 右 移 动 时 ， 递 增 zcv_adv( 代 码 匈 图 26-32)。 

回想 图 24-18， 假 定 收 到 了 字 节 4、5 和 6， 并 提交 给 应 用 进程 。 图 26-10 给 出 了 此 时 
tcp_output 中 接收 缓存 的 状态 。 
adv 等 于 3， 因 为 接收 空间 中 还 有 3 个 字 市 ( 字 节 10、11 和 12) 等 待 对 端 填充 。 
169-170 如 果 剩 余 的 接收 空间 能 够 容纳 两 个 或 两 个 以 上 的 报 文 段 ， 则 发 送 窗口 更 新 报 文 。 
在 收 到 最 大 长 度 报 文 段 后 ，TCP 将 确认 收 到 的 所 有 其 他 报 文 段 :“ 确 认 所 有 其 他 报 文 段 (ACK- 
every-other-segment)” 的 属性 (马上 就 会 看 到 具体 的 实例 )。 
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win = 6: 接收 缓存 大 小 


4 5 6 7 8 9 10 11 12 13 14 
rey xuwte7 rcv adv - 10 


下 一 个 接收 序号 通告 的 最 高 序号 加 1 
图 26-10 收 到 字 节 4、5 和 6 后 ， 图 24-18 中 连接 的 状态 变化 
171-172 如 果 可 用 空间 大 于 插口 接收 缓存 的 一 半 ， 则 发 送 窗口 更 新 报 文 。 


图 26-11 给 出 了 tcp_output 下 一 部 分 的 代码 ， 判 定 输出 标志 和 古人 否 置 位 ， 要 求 TCP 发 送 相 
应 报 文 段 。 


TF y. tcp output.c 
L73 * Send if we owe peer an ACK. 
176 *J 
177 if (tp-»t flags & TF ACKNOW) 
178 goto send; 
179 if (flags & (TH SYN | TH RST)) 
180 goto send; 
181 if (SEQ GT(tp-»snd up, tp-»snd una)) 
182 goto send; 
183 /* 
184 * If our state indicates that FIN should be sent 
185 * and we have not yet done so, or we're retransmitting the FIN, 
186 * then we need to send. 
187 y 
188 if (flags & TH_FIN && 
189 ( (tp->t_flags & TF. SENTFIN) == 0 || tp->snd_nxt == tp-»snd una)) 
190 goto send; 
tcp_output.c 


图 26-11 tcp output 函数 : 是 否 需 要 发 送 特定 报 文 段 


174-178 如果 TF_RACKNOW 置 位 ， 要 求 立即 发 送 ACK， 则 发 送 相应 报 文 段 。 有 多 种 情况 可 
导致 TF_ACKNOW 置 位 : 200 ms 延迟 ACK 定 时 器 超时 ， 报 文 段 未 按 顺序 到 达 ( 用 于 快速 重 传 算 
法 )， 三 次 握手 时 收 到 了 SYN， 收 到 了 窗口 探测 报 文 ， 收 到 了 FIN。 
179-180 如 果 输 出 标志 flags 要 求 发 送 SYN 或 RST， 则 发 送 相应 报 文 段 。 
181-182 如 果 紧 急 指针 ，snd_up， 超 出 了 发 送 缓存 的 起 始 边界 ， 则 发 送 相应 报 文 段 。 紧 
急 指 针 由 PRU_SENDOOB 请 求 处 理 代 码 (图 30-9) 负 责 维 护 。 
183-190 如 果 输 出 标志 flags 要 求 发 送 FIN， 并且 满足 下 列 条 件 : FIN 未 发 送 过 或 者 FIN 等 
待 重 传 ， 则 发 送 相 应 报 文 段 。FIN 发 送 后 ， 函 数 将 置 位 TF_SENTFIN 标 志 。 

到 目前 为 止 ， tcp_output 还 没有 真正 发 送 报 文 段 ， 图 26-12 给 出 了 函数 返回 前 的 最 后 一 
段 代码 。 
191-217 如 果 发 送 缓存 中 存在 需要 发 送 的 数据 (so_snda. sb_cc 非 零 )， 并 且 重 传 定 时 右 和 
持续 定时 器 都 未 设 定 ， 则 启动 持续 定时 器 。 这 是 为 了 处 理 对 端 通告 的 接收 窗口 过 小 ， 无 法 接 
收 最 大 长 度 报 文 段 ， 而 且 也 没有 特殊 原因 需要 发 送 立 即 发 送 报 文 段 的 情况 。 
218-221 由 于 不 需要 发 送 报 文 段 ，tcp_output 返 回 。 
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2 pan tcp_output.c 
192 * TCP window updates are not reliable, rather a polling protocol 
193 * using 'persist' packets is used to ensure receipt of window 
194 * updates. The three 'states' for the output side are: 
195 * idle not doing retransmits or persists 
196 * persisting to move a small or zero window 
197 *  (re)transmitting and thereby not persisting 
198 x 
199 * tp-»t timer[TCPT PERSIST] 
200 * is set when we are in persist state. 
201 * tp-»t force 
202 s is set when we are called to send a persist packet. 
203 * tp-»t timer[TCPT REXMT] 
204 * is set when we are retransmitting 
205 * The output side is idle when both timers are zero. 
206 * 
207 * If send window is too small, there is data to transmit, and no 
208 * retransmit or persist is pending, then go to persist state. 
209 * If nothing happens soon, send when timer expires: 
210 * if window is nonzero, transmit what we can, 
211 * otherwise force out a byte. 
212 * / 
213 if (so-»so snd.sb cc && tp-»t timer[TCPT REXMT] == 0 && 
214 tp-»t timer[TCPT PERSIST] == 0) A 
215 tD-»L.rxtsbift s Dj 
216 tcp setpersist(tp); 
217 ) 
218 (* 
219 * No reason to send a segment, just return. 
220 wy 
221 return (0); 
tcp output.c 
图 26-12 tep output: 进入 持续 状态 
举例 


应 用 进程 向 某 个 空闲 的 连接 写 和 100 字 节 ， 接 着 又 写 人 50 字 节 。 假 定 报 文 段 大 小 为 512 字 
节 。 在 第 一 次 写 入 操作 时 ， 由 于 连接 空 闪 ， 且 TCP 正 在 清空 发 送 缓存 ， 图 26-8 中 的 代码 
(144~146 行 ) 被 执行 ， 发 送 一 个 报 文 段 ， 携 带 100 字 市 的 数据 。 

在 第 二 次 写 入 50 字 节 时 ， 图 26-8 中 的 代码 被 执行 ， 但 未 发 送 报 文 段 : 待 发 送 数据 不 能 构 
成 一 个 最 大 长 度 报 文 段 ， 连 接 未 空闲 (假定 TCP 正 在 等 待 第 一 个 报 文 段 的 ACK)， 默 认 时 采用 
Nagle 算 法 , t_force 未 置 位 ， 并 且 假 定 正 常情 况 下 接收 窗口 大 小 为 4096，50 不 满足 大 于 等 
于 2048 的 条 件 。 这 50 字 节 的 数据 将 暂 留 在 发 送 缓存 中 ， 也 许 会 一 直 等 到 第 一 个 报 文 段 的 ACK 
到 达 。 由 于 对 端 可 能 延迟 发 送 ACK， 最 后 50 字 节 数 据 发 送 前 的 延迟 有 可 能 会 更 长 。 

这 个 例子 说 明 采 用 Nagle 算 法 时 ， 如 果 待 发 送 数据 无 法 构成 最 大 长 度 报 文 段 ， 如 何 计算 它 
的 延 时 。 参 见习 题 26.12。 


举例 
本 例 说 明 TCP 的 “确认 所 有 其 他 报 文 段 ”属性 。 假 定 连 接 的 报 文 段 大 小 为 1024 字 节 ， 接 
收 缓存 大 小 为 4096 字 节 。 本 地 不 发 送 数据 ， 只 接收 数据 。 
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发 问 对 端的 对 SYN 的 ACK 报 文中 ， 通 告 接收 窗口 大 小 为 4096， 图 26-13 给 出 了 两 个 变量 
rcv_nxt 和 rcv_adv 的 初始 值 。 接 收 缓 存 为 空 。 
”接收 缓存 大 小 =4096 


和 E 

| | 

E ue eaim he E bts a dub iiic dedu Seo icd ai uiui al 
rév nxetz1 rcv. adv - 4097 
下 一 个 接收 序号 通告 的 最 高 序号 加 1 


图 26-13 接收 方 通告 接收 窗口 大 小 为 4096 


对 端 发 送 1~1024 字 证 的 报 文 段 ，tcp_input 处 理 报 文 段 后 ， 设 置 连接 的 延迟 ACK 标 志 ， 
把 1024 字 市 的 数据 放 入 插口 的 接收 缓存 中 (图 28-13)。 更 新 rcv_nxt ， 如 图 26-14 所 示 。 


”接收 缓存 大 小 =3072 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 人 >| 


rcv fixt - 1025 rcv adv- 4097 
下 一 个 接收 序号 通告 的 最 高 序号 加 1 


图 26-14 图 26-13 所 示 的 连接 在 收 到 1~1024 字 刷 后 的 状态 变迁 


应 用 进程 从 插口 的 接收 缓存 中 读 取 1024 字 市 的 数据 。 从 图 30-6 中 可 看 到 ， 生 成 的 
PRU_RCVD 请 求 在 处 理 过 程 中 会 调用 tcp_output， 因 为 应 用 进程 从 接收 缓存 读 取 数据 后 ， 
可 能 需要 发 送 窗 口 更 新 报 文 。 当 tcp_output 被 调用 时 ，rcv_nxt 和 rcv_adv 的 值 与 图 26- 
14 相 同 ， 唯 一 的 区 别 是 接收 缓存 的 可 用 空间 增加 至 4096 ， 因 为 应 用 进程 从 中 读 取 了 第 一 个 
1024 字 市 的 数据 。 把 上 述 具 体 数 值 代入 图 26-9 中 的 算式 ， 得 到 : 


adv = min(4096, 65535) - (4097 - 1025) 
= 1024 


TCP_MAXWIN 等 于 65535， 我 们 假定 接收 窗口 大 小 偏 移 量 为 0。 由 于 窗口 的 增加 值 小 于 两 
个 最 大 报 文 段 长 度 (2048)， 不 需要 发 送 窗 口 更 新 报 文 。 但 由 于 延迟 ACK 标 志 置 位 ， 如 果 200ms 
定时 如 超时 ， 将 发 送 ACK。 

当 TCP 收 到 下 一 个 1025~2048 字 市 的 报 文 段 时 ，tcp_input 处 理 后 ， 设 定 连接 的 延迟 
ACK 标 志 ( 这 个 标志 已 置 位 )， 把 1024 字 市 的 数据 放 入 插口 的 接收 缓存 中 ， 更 新 rcv_nxt， 如 
图 26-15 所 示 。 


| — 接收 缓存 大 小 =3072 | 


1025 lo ENNIO E N RERO A 
rcv nxt = 2049 rcv. adv = 4097 
下 一 个 接收 序号 通告 的 最 高 序号 加 1 


图 26-15 图 26-14 所 示 的 连接 收 到 1025~2048 字 节 后 的 状态 变迁 
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LH tféixH1024-2048*E-58g2 X18. WiHitcp output, rcv nxtflrcv adv 的 值 与 
图 26-15 相 同 ， 尽 管 应 用 进程 读 到 1024 字 市 的 数据 后 ， 接 收 缓存 的 可 用 空间 增加 至 4096。 把 上 
述 具 体 数 值 代入 图 26-9 的 算式 中 ， 得 到 ; 


adv = min(4096, 65535) - (4097 - 2049) 
= 2048 


它 等 于 两 个 报 文 段 的 长 度 ， 因 此 发 送 窗口 更 新 报 文 ， 确 认 序 号 字段 为 2049， 通 告 窗口 字 
段 为 4096， 表 示 接 收 方 希望 接收 序号 2049~6145 的 数据 。 我 们 在 后 面 将 看 到 ， 函 数 发 送 完 窗口 
更 新 报 文 后 ， 将 更 新 rcv_adv 的 值 为 6145。 

本 例 说 明了 如 果 数 据 接收 时 间 少 于 200ms 延 迟 定时 器 时 限 ， 在 有 两 个 或 两 个 以 上 报 文 段 到 
达 ， 而 且 应 用 进程 连续 读 取 数据 引起 了 接收 窗口 的 不 断 变化 时 ， 将 发 送 ACK， 确 认 所 有 接收 
到 的 报 文 段 。 如 果 有 数据 到 达 ， 但 应 用 进程 没有 从 插口 的 接收 缓存 中 读 取 数据 ， 则 “确认 所 
有 其 他 报 文 段 “的 属 性 不 会 出 现 。 相 反 ， 发 送 方 只 能 看 到 多 个 延迟 ACEK， 每 个 ACK 的 窗口 字 
段 均 较 前 一 个 要 小 ， 直 到 接收 缓存 被 填 满 ， 接 收 窗口 缩小 为 0。 ! 


26.4 TCP 选 项 
TCP 首 部 可 以 有 任 选 项 。 由 于 tcp_output 的 下 一 部 分 代码 将 试图 确定 哪些 选项 需要 发 


送 ， 并 据 此 组 织 将 发 送 的 报 文 段 ， 下 面 我 们 将 暂时 离开 国 数 代码 ， 转 而 讨论 这 些 选 项 。 
图 26-16 列 出 了 Net/3 支 持 的 选项 格式 。 


选项 表 结 束 : kind=0 
1 字 节 
无 操作 ; 
ES 
viue 最 大 报 文 段 长 
最 大 报 文 段 长 度 : ae 
DES 1x4 2 字 节 


kind=3 | len= Di 
iht [8] 3 - inte | neto 时 间 戳 值 时 间 戳 回 显 应 答 





图 26-16 Net/3 支 持 的 TCP 选 项 


所 有 选项 以 1 字 贡 的 fand 字 段 开 头 ， 确 定 选 项 类 型 。 头 两 个 选项 (Kind=0 或 Kind=1) 只 有 1 个 
字 广 。 其 余 3 个 选项 都 是 多 字 市 的 ， 带 有 len 字 段 ， 位 于 kind 字 有 段 之 后 ， 存 储 选 项 的 长 度 。 长 度 
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中 包括 kind 字 段 和 len 字 段 。 

LF HRB MSS 和 两 个 时 间 惟 值 一 一 遵照 网 络 字 节 序 存储 。 

最 后 两 个 选项 ， 窗 口 大 小 和 时 间 戳 ， 是 新 增 的 ， 因 此 许多 系统 都 不 支持 。 为 了 与 以 前 的 
系统 兼容 ， 应 遵循 下 列 原则 : 

1) TCP 主 动 打开 时 (发 送 不 带 ACK 的 SYN)， 可 以 在 初始 SYN 中 同时 发 送 这 两 个 选项 ， 或 
发 送 其 中 的 任何 一 个 。 如 果 全 局 变量 tcp_do_rfc1323 非 零 ( 默 认 值 等 于 1)， 则 Net/3 同 时 支 
持 这 两 个 选项 。 此 项 功能 由 tcp_newtcpcb 函 数 实现 。 

2) 只 有 对 端 返 回 的 SYN 中 包含 同样 的 选项 时 ， 才 可 以 使 用 这 些 选 项 。 图 28-20 和 图 29-2 中 
的 代码 实现 此 类 处 理 。 

3) TCP 被 动 打 开 时 ， 如 果 收 到 的 SYN 中 包含 了 这 两 个 选项 ， 而 且 也 希望 使 用 这 些 选 项 ， 
则 发 加 对 问 的 啊 应 ( 带 有 ACK 的 SYN) 中 必须 包含 它们 ， 如 图 26-23 所 示 。 

由 于 系统 必须 忽略 它 不 了 解 的 选项 ， 因 此 新 增 的 选项 只 有 当 连 接 双方 都 了 解 这 一 选项 ， 
HEHEA CNTA EMH. 

27.5 市 将 讨论 如 何 处 理 MSS 选 项 。 下 面 两 市 将 总 结 Net/3 处 理 两 个 新 选项 的 做 法 : 窗口 大 
小 和 时 间 惟 。 

还 有 其 他 可 能 的 选项 。kinds 等 于 、5、6 和 7， 称 为 选择 性 ACK 和 回 显 选项 ， 在 

RFC 1072[Jacobson and Braden 1998] 中 定义 。 图 26-16 中 并 未 给 出 这 些 选 项 ， 因 为 回 

显 选项 已 被 时 间 稚 选项 所 代替 ， 选 择 性 ACK 选 项 目前 还 未 形成 正式 标准 ， 未 在 REFC 

1323 中 出 现 。 此 外 ， 处 理 TCP 交 易 的 TITCP 建 议 (RFC 1644[Braden 1994] 和 卷 1 的 24.7 

节 ) 规 定 了 其 他 3 个 选项 ，kinds 分 别 为 11、12 和 13，。 


26.5 窗口 大 小 选项 


窗口 大 小 选项 ， 在 REFC 1323 中 定义 ， 人 避免 了 TCP 首 部 窗口 大 小 字段 只 有 16 bit 的 限制 (图 24- 
10)。 如 果 网 络 带 宽 较 高 或 延 时 较 长 (如 ，RTT 较 长 )， 则 需要 较 大 的 窗口 ， 称 为 长 肥 管 道 (long 
fat pipe)。 卷 1 的 第 24.3 贡 举例 说 明了 现代 网 络 需要 较 大 的 窗口 ， 以 获取 最 大 的 TCP 吞 吐 量 。 

图 26-16 中 的 偏 移 量 最 小 值 为 0 (无 缩放 )， 最 大 值 为 14， 即 窗口 最 大 可 设 定 为 1 073 725 
440 (65535 x 219) 字 节 。Net3 内 部 实现 时 ， 利 用 32 bit, müdEl6 bit 整 数 表 示 窗 口 大 小 。 

窗口 大 小 选项 只 能 出 现在 SYN 中 ， 因 此 ， 连 接 建立 后 ， 每 个 传输 方向 上 的 缩放 因子 是 固 
定 不 变 的 。 

TCP 控 制 块 中 的 两 个 变量 snda_scale 和 rcv_scale， 分 别 规定 了 发 送 窗口 和 接收 窗口 
的 仿 移 量 。 它 们 的 默认 值 均 为 0， 无 缩放 。 每 次 收 到 对 端 发 送 的 窗口 通告 时 ，16 bit 的 窗口 大 
小 值 被 左 移 snd_ scale 比特 ， 得 到 真正 的 32 bit 的 对 端 接收 窗口 大 小 (图 28-6)。 每 次 准备 癌 对 
站 发 送 窗 口 通告 时 ， 内 部 的 32 bit 窗 口 大 小 值 被 右 移 rcev_scale 比 特 ， 得 到 可 填 入 TCP 首 部 
窗口 字段 的 16 bit 值 。 

TCP 发 送 SYN 时 ， 无 论 是 主动 打开 或 被 动 打开 ， 都 是 根据 本 地 插口 接收 缓存 大 小 选取 
rcv_scale 值 ， 填 充 窗口 大 小 选项 的 偏 移 量 字段 。 


26.6 时 间 惟 选项 
RFC 1323 中 还 定义 了 时 间 惟 选项 。 发 送 方 在 每 个 报 文 段 中 放 入 时 间 改 ， 接 收 方 在 ACK 中 
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将 时 间 惟 发 回 。 对 于 每 个 收 到 的 ACK， 发 送 方 根据 返回 的 时 间 惟 计算 相应 的 RITT 样 本 值 。 
图 26-17 总 结 了 时 间 惟 选项 所 用 到 的 变量 。 


| 1251 3 BT [HR] 893026 | 
i +e | 时 间 惟 回 
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ts val em deg 


接收 报 文 段 





tcp now-ts. ecr = RIT 


ts recent 
ts recent age 
ti ack 


Hs [8] ÆR [e] 
[pee me use 


图 26-17 时 间 惟 选项 中 用 到 的 变量 小 结 


全 局 变量 tcp_now 是 一 个 时 间 惟 时 钟 。 内 核 初 启 时 它 初 始 化 为 0， 之 后 每 500 ms 增加 1( 图 
25-8)。 为 实现 时 间 惟 选项 ，TCP 控 制 块 中 定义 了 下 面 3 个 变量 : 

“ts_recent 等 于 对 端 发 送 的 最 新 的 有 效 时 间 礁 (后面 很 快 会 介绍 什么 是 “有 效 的 ”时 

IR] SX) 

ets recent _ age 是 最 近 一 次 tcPp_zrecent 被 更 新 时 的 tcPp_now 值 。 

“1ast_ack_sent 是 最 近 一 次 发 送 报 文 段 时 确认 字段 (ti_ack) 的 值 (图 26-32)。 除 非 

ACK 被 延迟 ， 正 常情 况 下 ， 它 等 于 *cv_nxt， 下 一 个 等 待 接收 的 序号 。 

tcp_input 函 数 中 的 两 个 局 部 变量 ts_val 和 ts_ecr, 保存 时 间 玲 选项 的 两 个 值 : 

"ts_val 是 对 端 发 送 的 数据 中 携带 的 时 间 戳 。 

。ts_ecr 是 由 收 到 的 报 文 段 确认 的 本 地 发 送 报 文 段 中 携带 的 时 间 礁 。 

发 送 报 文 段 中 ， 时 间 堆 选项 的 前 4 个 字 市 为 0x0101080a， 这 是 RFC 1323 附 录 A 中 建议 的 
填充 值 。 第 一 和 第 二 字 市 都 等 于 1， 为 NOP; 第 三 字 市 为 kind 字 段 ， 等 于 8; 第 四 字 市 为 len 字 
段 ， 等 于 10。 在 选项 之 前 添加 两 个 NOP 后 ， 紧 接着 的 两 个 32 bit 时 间 惟 和 后 续 数据 都 可 按照 32 
bit 边 界 对 齐 。 此 外 ， 图 26-17 中 还 给 出 了 接收 到 的 时 间 惟 选项 ， 同 样 采用 了 推荐 的 12 字 节 格 式 
(Net/3 通 常生 成 的 格式 )。 不 过 ， 处 理 接收 选项 的 应 用 进程 代码 (图 28-10)， 并 不 要 求 必须 使 用 
此 格式 。 图 26-16 中 定义 的 10 字 市 格式 中 ,没有 两 个 前 导 的 NOP， 对 端 接收 处 理 代 码 一 样 工作 
正常 (参见 习题 28.4)。 

从 发 送 报 文 段 至 收 到 其 ACK 间 的 RTT 等 于 tcp_now 减 ts_ecr， 单 位 为 500ms 滴 答 ， 因 为 
这 是 Net/3 时 间 礁 的 单位 。 

时 间 玲 选项 还 可 以 支持 TCP 执 行 PAWS: 防止 序号 回 绕 (protection against wrapped sequence 
number)。28.7 证 将 详细 讨论 这 一 算法 。PAWS 中 会 用 到 ts_recent_age 变 量 。 

tcp_output 问 输出 报 文 段 中 填充 时 间 惟 选项 时 ， 复 制 Efcp_now 到 时 间 戳 字段， 复制 









last ack sent 


传输 报 文 段 
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ts recent$lEHR] Eke T FE (E26-24). An ZR GE BEEF. TERRE, MAA A i HR 
文 段 执行 这 一 操作 ， 除 非 RST 标 志 置 位 。 


26.6.1 WAHIE, RFC 1323 算 法 

TCP 通 过 时 间 惟 的 有 效 性 测试 决定 是 否 更 新 ts_recent ， 因 为 这 个 变量 会 被 填充 到 时 
轩 惟 回 显 字段 中 ， 也 就 决定 了 对 端 发 送 的 哪个 时 间 惟 需要 回 显 。RFC 1323 规 定 了 下 面 的 测 
试 条 件 : 


ti seq <= last ack sent < ti seq + ti len 
图 26-18 中 的 C 代 码 实现 它 。 
if (ts present && SEQ LEQ(ti-»ti seq, tp-»last ack sent) && 
SEQ LT(tp-»last ack sent, ti-»ti seq + ti-»ti len)) ( 


tp-»ts recent, age = tcp now; 
tp-»ts recent = ts val; 


图 26-18 判定 接收 时 间 戳 是否 有 效 的 典型 代码 


如 果 收 到 的 报 文 段 中 携带 时 间 惟 选项 ， 则 变量 ts _present 为 真 。 我 们 在 
tcp_input 中 两 次 遇 到 这 段 代 码 : 图 28-11 首 部 预测 代码 中 的 测试 ， 和 图 28-35 正 常 输入 处 
理 中 的 测试 。 

为 了 理解 测试 条 件 的 具体 含义 ， 图 26-19 给 出 了 5 种 不 同 的 实例 ， 分 别 对 应 于 连接 上 收 到 
的 5 种 不 同 的 报 文 段 。 每 个 例子 中 ，ti_1len 都 等 于 3。 


last. ack sent 


图 26-19 举例 : 收 到 5 个 不 同 报 文 段 时 的 接收 窗口 


接收 窗口 左边 界 的 序号 从 4 开始 。 实 例 1 中 ， 报 文 段 中 携带 的 全 部 是 重复 数据 。 图 28-11 中 
的 SEQ_LEQ 测 试 为 真 ， 但 SEQ_LT 测 试 失败 。 对 于 实例 2、3 和 4， 由 于 收 到 其 中 任何 一 个 报 文 
7 段 ， 接 收 窗口 左边 界 都 会 增加 ，SEQ _LEQ 和 SEQ LT 测试 都 为 真 ， 尽 管 实例 2 中 包含 2 个 重复 
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数据 ， 实 例 3 中 也 包含 1 个 重复 数据 。 实 例 5， 由 于 它 无 法 增加 接收 窗口 左边 界 ， 所 以 
SEQ_LEQ 测 试 失败 。 这 是 一 个 未 来 报 文 段 ， 而 非 等 待 的 下 一 个 报 文 段 ， 意 味 着 它 前 面 的 报 文 
段 丢失 或 报 文 段 序列 错误 。 

不 苹 的 是 ， 这 个 用 于 判定 是 否 更 新 ts_recent 的 测试 条 件 存 在 问题 [Braden 1993], JE 
下 面 的 例子 。 

1) 假定 图 26-19 中 的 连接 开始 时 收 到 了 一 个 报 文 段 ， 携 带 字 节 1、2 和 3。 因 为 
last_ack_sent 等 于 1, 报 文 段 的 时 间 规 被 保存 到 ts_recent 中 。 发 送 ACK, 确认 序号 为 4， 
last ack sent 设 为 4(rcv nxt 的 值 )， 得 到 如 图 26-19 所 示 的 接收 窗口 。 

2) ACK £X, 

3) 对 闯 超 时 后 重 传 前 一 个 报 文 段 ， 携 带 字 节 1、2 和 3， 即 为 图 26-19 中 实例 1 的 报 文 段 。 由 
于 图 26-18 中 的 SEQ_LT 测 试 失败 ，ts_recent 不 会 更 新 为 重 传 报 文 段 中 的 值 。 

4) TCP 发 送 一 个 重复 的 ACE ， 确 认 序 号 为 4， 但 时 间 惟 回 显 字 段 填 人 的 ts_recent ， 即 
从 步骤 1 的 原始 报 文 段 中 获取 的 时 间 戳 值 。 接 收 方 利 用 这 个 值 计 算 RITT 时 ， 将 (不 正确 地 ) 计 入 
原始 传输 、 丢 失 的 ACK、 定 时 器 超时 、 重 传 和 重复 ACE ， 得 到 它们 的 总 时 延 。 

为 了 使 对 端 能 够 正确 地 计算 RITT， 重 发 ACK 中 应 该 携带 重 传 报 文 中 的 时 间 戳 值 。 

图 26-18 中 的 测试 在 收 到 的 报 文 长 度 为 0 时 ， 由 于 无 法 移动 接收 窗口 左边 界 ， 同 样 不 能 
新 rs_recent。 此 外 ， 这 个 错误 的 测试 条 件 还 会 造成 生存 时 间 过 长 的 (大 于 24 天 ， 参 见 28.7 节 
中 讨论 的 PAWS 限 制 )、 单 方向 的 (数据 流 只 在 一 个 方向 上 存在 ， 从 而 数据 发 送 方 总 是 输出 相同 
的 ACK) 连 接 。 


26.6.2 哪个 时 间 戳 需要 回 显 ， 正 确 的 算法 


Net3 源 代码 中 使 用 了 图 26-18 所 示 的 算法 。[Braden 1993] 定 义 了 正确 的 算法 ， 如 图 26-20 
所 示 。 


if (ts, present && TSTMP GEQ(ts val, tp->ts_recent) && 
SEQ LEQ(ti-»ti, seq, tp-»last, ack sent)) ( 


图 26-20 判定 接收 时 间 戳 是 否 有 效 的 正确 代码 


它 不 关心 接收 窗口 左 侧 是 否 移动 ， 只 确认 新 的 时 间 惟 (ts_val) 大 于 等 于 前 一 个 时 间 惟 
(ts_recent)， 并 且 接 收 到 的 报 文 段 的 起 始 序 号 不 大 于 窗口 的 左边 界 。 图 26-19 中 实例 5 的 报 
文 仍旧 无 法 通过 新 的 测试 ， 因 为 这 是 一 个 乱 序 报 文 。 

宏 TSTMP_GEQ 与 图 24-21 中 的 SEQ_GEQ 相 同 。 它 用 于 处 理 时 间 惟 ， 因 为 时 间 惟 是 32 bit 的 
无 符号 整数 ， 与 序号 一 样 存 在 回 绕 的 问题 。 


26.6.3 时 间 惟 与 延迟 ACK 


正确 理解 延迟 ACK 是 如 何 影 响 时 间 融 和 RTT 计 算是 很 重要 的 。 回 想 图 26-17，TCP 把 
ts_recent 填 入 到 发 送 报 文 段 的 时 间 礁 回 显 字段 中 ， 对 端 据 此 计算 新 的 RTT 样 本 值 。 如 果 
ACK 被 延迟 ， 对 咽 计算 时 应 把 延迟 时 间 也 考虑 在 内 ， 否 则 会 造成 频繁 重 传 。 下 面 的 例子 中 ， 
我 们 使 用 图 26-20 中 的 代码 ， 不 过 图 26-18 的 代码 也 能 正确 处 理 延迟 ACK。 

芳 虑 图 26-21 所 示 的 接收 窗口 收 到 携带 字 节 4 和 5 的 报 文 段 时 的 变化 。 
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rcv wnds-6; 接收 窗口 


4 D 6 7 8 9 10 11 


! 


rcv. nxt 
last ack, sent 


ti seq 
图 26-21 当 字 节 4 和 5 到 达 时 的 接收 序号 空间 


由 于 ti seq 小 于 等 于 last ack sent, ts recent 被 更 新 。zcv_nxt 增 加 2。 
假定 对 这 两 个 字 节 的 ACK 被 延迟 ， 而 且 在 延迟 ACK 发 送 之 前 ， 收 到 了 下 一 个 按 序 到 达 的 
报 文 段 ， 如 图 26-22 所 示 。 
rcv wnds6; 接收 窗口 


D — ——— ———————————————————————— 
4 5 6 7 8 9 10 11 TT 


last ack sent rcv nxt 


ti seq 


图 26-22 当 字 节 6 和 7 到 达 时 的 接收 序号 空间 


这 一 次 ti seq 大 于 last ack sent， 因 此 ， 不 会 更 新 ts_recent。 这 样 做 是 有 目的 
的 。 假 定 TCP 现 在 发 送 确认 序号 4~7 的 ACK， 对 端 据 此 了 解 存在 延迟 ACK， 因 为 时 间 蕉 回 显 字 
段 填 入 的 是 携带 序号 4 和 5 的 报 文 段 的 时 间 礁 值 (图 26-24)。 图 26-22 还 说 明了 除非 使 用 了 延迟 
ACK， 否 则 ，rcv _ nxt 应 该 等 于 last ack sent, 


26.7 发 送 一 个 报 文 段 


tcp_output 接 下 来 的 代码 负责 发 送 报 文 段 一 一 填充 TCP 报 文 首部 的 所 有 字段 ， 并 传递 
给 IP 层 准备 发 送 。 

图 26-23 给 出 了 这 段 代码 的 第 一 部 分 ， 发 送 SYN 报 文 段 ， 携 带 MSS 选 项 和 窗口 大 小 选项 。 
223-234 ITCP 选 项 字段 构建 时 用 到 数组 cpt ， 整 数 opt1len 记 录 和 累积 的 字 市 数 (因为 一 次 可 
发 送 多 个 选项 )。 如 果 SYN 标 志 置 位 ，snd_nxt 复 位 为 初始 发 大 序 号 (iss)。 如 来 主动 打开 ， 
则 创建 TCP 控 制 块 时 在 PRU_CONNECT 请 求 处 理 中 对 iss 赋 值 ， 如 果 被 动 打开 ， 则 tcp_input 
创建 TCP 控 制 块 的 同时 对 iss 赋 值 。 两 种 情况 下 ，iss 都 等 于 全 局 变量 tcp_iss。 

235 查看 标志 TF_NOOPT。 但 事实 上 ， 这 个 标志 永远 都 不 会 置 位 ， 因 为 没有 代码 实现 置 位 操 
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作 。 因 此 ，SYN 报 文 段 中 必然 存在 MSS 选 项 。 
Net/1 版 的 kcp_newtcpcb 中 ， 初 始 化 flagsJO0ftjj4A 4 Ad —4&u kx 
选项 | ” 。TE_NOOPT 标 志 很 可 能 是 从 早期 的 Net/1 版 本 中 遗留 下 来 的 问题 。 早 期 版 本 
发 送 MSS 选 项 时 与 其 他 主机 系统 不 兼容 ， 只 好 默认 设置 不 发 送 这 一 选项 。 


333 T tcp output.c 
224 * Before ESTABLISHED, force sending of initial options 
225 * unless TCP set not to do any options. 
226 * NOTE: we assume that the IP/TCP header plus TCP options 
227 * always fit in a single mbuf, leaving room for a maximum 
228 * link header, i.e. 
229 * max_linkhdr + sizeof (struct tcpiphdr) + optlen <= MHLEN 
230 & 
2231 optlen s 0; 
232 Harlen s sizeof (struct tcpiphar); 
233 if (flags & TH SYN) ( 
234 tp-»snd nxt = tp-»iss; 
235 if ((tp-»t flags & TF NOOPT) == O0) ( 
236 u short mss; 
237 opt[0] = TCPOPT MAXSEG; 
238 optiil e 4; 
239 mss - htons((u short) tcp mss(tp, 0)); 
240 bcopy((caddr t) & mss, (caddr t) (opt + 2), sizeof(mss)); 
241 optlen - 4; 
242 if ((tp-»t flags & TF REQ SCALE) && 
243 ((£lags & TH ACK) == OQ || 
244 (tp-»t flags & TF RCVD SCALE))) 4 
245 *((u long *) (opt * optlen)) = htonl(TCPOPT NOP << 24 | 
246 TCPOPT WINDOW << 16 | 
247 TCPOLEN WINDOW «« 8 | 
248 tp-»request r scale); 
249 optlen += 4; 
250 ) 
251 ) 
252 ) 
tcp output.c 


图 26-23 tcp_output 函 数 : 发 送 第 一 个 SYN 时 加 入 选项 


1. 构造 MSS 选 项 
236-241 opt[0] 等 于 2(TCPOPT MAXSEG)，opt[H] 等 于 4， 即 MSS 选 项 长 度 ， 以 字 节 为 单位 。 
尔 数 tcp_mss 计 算 准 备 疝 对 端 发 送 的 MSS 值 ，27.5 市 将 讨论 这 个 函数 。bcopy 把 16 bit 的 MSS 
存储 到 opt [2] 和 opt [3] 中 (习题 26.5)。 注 意 ，Net/3 总 是 在 建立 连接 的 SYN 中 发 送 MSS。 

2. 是 否 发 送 窗口 大 小 选项 
242-244 ”即使 TCP 请 求 窗 口 大 小 功能 ， 也 只 有 在 主动 打开 (TH_ACK 未 置 位 ) 时 ， 或 者 被 动 打 
开 但 对 端 SYN 中 已 包含 了 窗口 大 小 选项 时 ， 才 会 发 送 这 一 选项 。 回 想 图 25-21 中 TCP 控 制 块 创 
XB, ARA Etcp do rfci323d4E*(&M Ali). JBAt _ flags 就 等 于 
TF REQ SCALE|TF REQ TSTMP, 

3. 构造 窗口 大 小 选项 
245-249 由 于 窗口 大 小 选项 占用 3 个 字 节 (图 26-16)， 在 它 前 面 加 入 1 字 节 的 NOP， 强 迫 其 长 
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度 为 4 字 节 ， 从 而 后 续 数据 都 可 以 按照 4 字 节 边界 对 齐 。 如 末 主 动 打开 ， 则 在 PRU_CONNECT 
请 求 处 理 代码 中 计算 request _r_scale。 如 果 被 动 打开 ， 则 tcp_input 在 收 到 SYN 时 计 
算 窗口 大 小 因子 。 

RFC 1323 规 定 如 果 TCP 支 持 缩放 窗口 ， 即 使 自己 的 偏 移 量 为 0, 也 应 该 发 送 窗口 大 小 选项 。 
因为 这 个 选项 有 两 个 目的 : 通知 对 端 自己 支持 此 选项 ， 通 告 本 地 的 偏 移 量 。 即 使 TCP 计 算得 
到 的 本 地 偏 移 量 为 0， 对 端 可 能 希望 使 用 不 同 的 值 。 

图 26-24 给 出 了 tcp_output 的 下 一 部 分 ， 完 成 在 外 出 报 文 段 中 构造 选项 


tcp_output.c 


253 j* 

254 * Send a timestamp and echo-reply if this is a SYN and our side 
255 * wants to use timestamps (TF REQ TSTMP is set) or both our side 
256 * and our peer have sent timestamps in our SYN's. 

257 * y 

258 if ((tp-»t flags & (TF. REQ TSTMP | TE NOOPT)) == TE REQ TSTMP && 
259 (flags & TH RST) == 0 && 

260 ((flags & (TH SYN | TH.ACE)) == THE SYN || 

261 (tp-»t flags & TF RCVD TSTMP))) ( 

262 u long *lp = (u long *) (opt = optlenmn); 

263 /* Form timestamp option as shown in appendix A of RFC 1323. */ 
264 *lp++ = htonl(TCPOPT TSTAMP HDR); 

265 *lb-- = htonl(tcp now); 

266 *lp = htonl(tp-»ts recent); 

267 optlen «- TCPOLEN TSTAMP APPA; 

268 } 

269 hdrlen += optlen; 

270 - doi 

211 * Adjust data length if insertion of options will 

272 * bump the packet length beyond the t_maxseg length. 

273 * 

274 if (len > tp-»t maxseg - optlen) { 

2195 len = tp-»t maxseg = optlen; 

276 sendalot - 1; 

217 ) 


tcp output.c 
[26-24 tcp_output 函数 : 完成 发 送 选 项 构 霹 


4. 是 否 需 要 发 送 时 间 截 
253-261 如 果 下 列 3 个 条 件 均 为 真 ， 则 发 送 时 间 惟 选项: (DTCP 当 前 配置 要 求 支持 时 间 戳 选 
M, (2) 正 在 构造 的 报 文 段 不 包含 RST 标 志 ，(3) 主 动 打开 (Elags 中 SYN 标 志 置 位 ，ACK 标 志 
未 置 位 )， 或 者 TCP 收 到 了 对 端 发 送 的 时 间 惟 (TEF_RCVS_TSTMP)。 与 MSS 和 窗口 大 小 选项 不 
同 ， 只 要 连接 双方 都 同意 支持 它 ， 时 间 惟 可 加 入 到 任意 报 文 段 中 。 

5. d xi IT f] AR e 
263-267 时 间 惟 选项 (26.6 节 ) 占 用 12 字 节 (TCPOLEN TSTAMP APPA), 3k4A^ FE 
0x0101080a( 常 量 TCPOPT_TSTRAMP_HDR)， 如 图 26-17 所 示 。 时 间 戳 值 等 于 tcpP_now( 系 统 
初 启 到 现在 的 5900ms 滴 答 数 )。 时 间 惟 回 显 字 段 值 等 于 由 tcp_input 设 定 的 ts_recent。 

6. 选项 加 入 后 是 否 会 造成 报 文 段 长 度 越界 
270-277 加 入 选项 后 ，TCP 首 部 长 度 会 增加 optlen 字 市 。 如 果 发 送 数 据 的 长 度 (len) 大 于 
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MSS 减 去 选项 长 度 (optlen)， 则 必须 相应 地 减少 数据 量 ， 并 置 位 sendalot 标 志 ， 强 迫 函数 
发 送 完 当前 报 文 段 后 进入 另 一 个 循环 (图 26-1)。 

MSS 和 窗口 大 小 选项 只 出 现在 SYN 报 文 段 中 。 由 于 Net/3 不 在 SYN 中 添加 用 户 数 据 ， 因 此 
数据 长 度 的 调整 对 这 两 个 选项 不 起 作用 。 但 如 果 存 在 时 间 惟 选项 ， 它 可 以 出 现在 所 有 报 文 段 
中 ， 从 而 降低 了 一 次 可 发 送 的 数据 量 。 最 大 长 度 报 文 段 可 携带 的 数据 从 通告 的 MSS 降 至 MSS 
减 去 12 字 市 。 

图 26-25 给 出 了 tcp_output 下 一 部 分 代码 ， 更 新 部 分 统计 值 ， 并 为 IP 和 TCP 首 部 分 配 
mbuf。 它 在 输出 报 文 段 携带 有 用 户 数据 (len 大 于 0) 时 执行 。 





us T tcp output.c 

279 * Grab a header mbuf, attaching a copy of data to 

280 * be transmitted, and initialize the header from 

281 * the template for sends on this connection. 

282 tj 

283 if (len) ( 

284 if (tp-»t force && len == 1) 

285 tcpstat.tcps sndprobe-«-*; 

286 else if (SEQ LT(tp-»snd nxt, tp-»snd max)) ( 

287 tcpstat.tcps sndrexmitpack-4-; 

288 tcpstat.tcps sndrexmitbyte += ien; 

289 ) else ( 

290 tcpstat.tcps. sndpack--*; 

291 tcpstat.tcps sndbyte += len; 

292 ) 

293 MGETHDR(m, M DONTWAIT, MT HEADER); 

294 lif (m ss NULL) ( 

295 error - ENOBUFS; 

296 goto out; 

297 } 

298 m-»m data += max linkhdr; 

299 m-»m len - hdrlen; 

300 if (len <= MHLEN - hdrlen - max linkhdr) ( 

301 m copydata(so-»so snd.sb mb, off, (int) len, 

302 mtod(m, caddr t) + hdrlen); 

303 m-»m len += len; 

304 ) else ( 

305 m-»m next = m copy(í(so-»so snd.sb mb, off, (int) len); 

306 if (m-»m next == O0) 

307 len = 0; 

308 ) 

309 r* 

310 * If we're sending everything we've got, set PUSH. 

311 * (This will keep happy those implementations that 

312 * give data to the user only when a buffer fills or 

313 * a PUSH comes in.) 

314 i i 

315 if (off + len == so-»so snd.sb cc) 

316 flags |= TH PUSH; j 
tcp output.c 


图 26-25 tcp_output Kğ: 更 新 统计 值 ， 为 TP 和 TCP 首 部 分 配 mbuf 


7. 更 新 统计 值 
284-292 如 果 t_force 非 零 ， 且 用 户 数据 只 有 1 字 市 ， 可 知 是 一 个 窗口 探测 报 文 。 如 果 
snd_nxt 小 于 snd_max， 则 是 一 个 重 传 报 文 。 其 他 的 都 是 正常 的 数据 传输 报 文 。 
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8. 为 IP 和 TCP 首 部 分 配 mbuf 
293-297 MGETHDR 为 带 有 数据 分 组 首部 的 mbuf 分 配 内 存 ，mbuf 中 保存 IP 和 TCP 的 首部 及 
可 能 的 数据 (者 空间 允许 )。 尽 管 tccp_output 调 用 通常 作为 系统 调用 的 一 部 分 (如 ， 
write)， 它 也 可 在 软件 中 断 级 由 tcp_input 调 用 ,或 作为 定时 器 处 理 的 一 部 分 。 
此 ， 定 义 了 M_DONTWAIT。 如 果 返 回 错误 ， 控制 跳 转 至 “out” 处 。 它 位 于 函数 的 末 
尾 ， 如 图 26-32 所 示 。 

9. 加 mbuf 中 复制 数据 
298-308 如果 数据 少 于 44 字 市 (100-40-16， 假定 没 有 TCP 选 项 )， 数 据 由 m copydata 直 接 
从 插口 的 发 送 缓存 中 复制 到 新 的 数据 组 首部 mbuf 中 。 若 数据 量 较 大 ，m_copy 创 建新 的 mbuf 
链表 ， 复 制 插口 发 送 缓存 中 的 数据 ， 最 后 与 前 面 创 建 的 数据 组 首部 mbuf 链 接 。 回 想 2.9 节 中 介 
绍 过 的 m_copy 函 数 ， 如 果 数 据 本 身 已 是 一 个 徐 ，m_copy 将 不 复制 ， 只 引用 这 个 簇 。 

10. 置 位 PSH 标 志 
309-316 如 采 TCP 发 送 了 从 发 送 缓存 得 到 的 所 有 数据 ， 则 PSH 标 志 被 置 位 。 如 同 注释 中 提 
到 的 ， 这 是 因为 有 些 接收 系统 只 有 在 收 到 PSH 标 志 或 者 接收 缓存 已 满 时 ， 才 会 向 应 用 程序 递 
交 收 到 的 数据 。 我 们 在 tcp_input 中 将 看 到 ，Net/3 绝 不 会 为 了 等 待 PSH 标 志 ， 而 把 数据 滞留 
在 接收 缓存 中 。 

图 26-26 给 出 了 tcp_output 下 一 部 分 的 代码 ， 从 在 len 等 于 0 时 执行 的 else 语 句 开始 ， 
处 理 不 携带 用 户 数据 的 TCP 报 文 段 。 


317 ) else ( /* len == 0 */ Mose 
318 if (tp-»t flags & TF ACKNOW) 

319 tcpstat.tcps sndacks-«-; 

320 else if (flags & (TH SYN | TH FIN | TH RST)) 

321 tcpstat.tcps sndctrl-«-; 

322 else if (SEQ GT(tp-»snd up, tp-»snd una)) 

323 tcpstat.tcps sndurg-*-*; 

324 else 

325 tcpstat.tcps sndwinup--; 

326 MGETHDR(m, M DONTWAIT, MT HEADER); 

327 if (m == NULL) { 

328 error - ENOBUFS; 

329 goto out; 

330 ) 

331 m-»m data += max linkhdr; 

332 m-»m len - hdrlen; 

333 ) 

334 m-»m pkthdr.rcvif - (struct ifnet *) 0; 

335 ti = mtod(m, struct tcpiphdr *); 

336 if (tp-»t template == 0) 

337 panic("tcp output"); 

338 bcopy((caddr t) tp-»t template, (caddr t) ti, sizeof(struct tcpiphdr)); 
—— ————————————————————7c top. output.c 


图 26-26 tcp output 函数 : 更 新 统计 值 ， 为 IP 和 TCP 首 部 分 配 mbuf 


11. 更 新 统计 值 
318-325 需要 更 新 的 统计 值 有 : TF_ACKNOW 和 长 度 为 0 说 明 是 一 个 纯 ACK 报 文 段 。 如 果 
SYN、FIN 或 RST 中 任何 一 个 置 位 ， 即 为 控制 报 文 段 。 如 果 紧 急 指 针 超 过 snd una, 是 为 了 
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通知 对 端 紧急 指针 的 位 置 。 如 果 上 述 条 件 均 为 假 ， 则 是 窗口 更 新 报 文 段 。 
12. 得 到 存储 IP 和 TCP 首 部 的 mbuf 
326-335 为 带 有 数据 包 组 首部 的 mbuf 分 配 内 存 ， 以 保存 IP 和 TCP 的 首部 。 
13. 向 mbuf 中 复制 IP 和 TCP 首 部 模板 
336-338 bcopy 把 IP 和 TCP 首 部 模板 从 t template 复 制 到 mbuf 中 。 这 个 模板 由 
tcp template 创 建 。 
图 26-27 给 出 了 tcp_output 下 一 部 分 的 代码 ， 填 充 TCP 首 部 剩余 的 字段 。 


FF zi tcp output.c 
340 * Fill in fields, remembering maximum advertised 
341 * window for use in delaying messages about window sizes. 
342 * If resending a FIN, be sure not to use a new sequence number. 
343 "7 
344 if (flags & TH FIN && tp-»t flags & TF SENTFIN && 
345 tp-»snd nxt == tp-»snd max) 
346 tp-»snd nxt--; 
347 /* 
348 * If we are doing retransmissions, then snd nxt will 
349 * not reflect the first unsent octet. For ACK only 
350 * packets, we do not want the sequence number of the 
351 * retransmitted packet, we want the sequence number 
352 * of the next unsent octet. So, if there is no data 
353 * (and no SYN or FIN), use snd max instead of snd nxt 
354 * when filling in ti seq. But if we are in persist 
3595 * state, snd max might reflect one byte beyond the 
356 * right edge of the window, so use snd nxt in that 
357 * case, since we know we aren't doing a retransmission. 
358 * (retransmit and persist are mutually exclusive...) 
359 Fi 
360 if (len || (flags & (TH SYN | TH FIN)) || tp->t_timer[TCPT_PERSIST]) 
361 ti-»ti seq = htonl(tp-»snd  nxt); 
362 else 
363 ti-»ti seq = htonl(tp-»snd, max); 
364 ti-»ti. ack = htonl(tp-»rcv.nxt); 
365 if (optlen) ( 
366 bcopy((caddr t) opt, (caddr.t) (ti + 1), optlen); 
367 ti-»ti off = (sizeof(struct tcphdr) + optlen) >> 2; 
368 ) | 
369 ti-»ti flags = flags; 
tcp output.c 


图 26-27 tcp output 函数 : 置 位 ti seq, ti ack 和 ti flags 


14. 如 果 FIN 将 重 传 ， 递 减 snd_nxt 
339-346 如 果 TCP 已 经 发 送 过 FIN， 则 发 送 序列 空间 如 图 26-28 所 示 。 因 此 ， 如 有 果 TH_FIN 置 
位 ， 则 TF _SENTFIN 也 置 位 ， 并 且 snd nxt 等 于 snd max， 可 知 FIN 等 待 重 传 。 不 久 将 看 到 
(图 26-31)， 发 送 FIN 时 ，snqd_nxt 会 递增 1( 由 于 FIN 也 要 占用 一 个 序号 )， 因 此 ， 这 里 的 代码 
递减 snd nxt, 

15. 设置 报 文 段 的 序号 字段 
347-363 报 文 段 的 序号 字段 通常 等 于 snd_nxt， 但 在 满足 下 列 条 件 时 ， 应 等 于 snd_max: 
如 果 (1) 不 传输 数据 (len 等 于 0); (2) SYN 标 志和 FIN 标 志 都 未 置 位 ，(3) 持续 定时 器 未 置 位 。 
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已 发 送 和 确认 à 
snd una - 10 snd nxt - 11 
snd max = 11 


图 26-28 FIN 发 送 后 的 发 送 序列 空间 


16. 设置 报 文 段 的 确认 字段 
364 报 文 段 的 确认 字段 通常 等 于 rcv_nxt， 期 待 接收 的 下 一 个 序号 。 

17. 如 果 存 在 首部 选项 ， 设 置 首 部 长 度 字段 
365-368 如 果 存 在 TCP 选 项 (optlen 大 于 0)， 代 码 把 选项 内 容 复制 到 TCP 首 部 ，TCP 首 部 4 
bit 的 首部 长 度 字 段 (图 24-10 的 th_off£) 等 于 TCP 首 部 的 固定 长 度 (20 字 市 ) 加 上 选项 总 长 度 后 除 
以 4。 这 个 字段 是 以 32 bit 为 单位 的 首部 长 度 值 ， 包 括 TCP 选 项 。 
369 TCP 首 部 的 标志 字段 根据 变量 flags 设 定 。 

图 26-29 给 出 了 下 一 部 分 的 代码 ， 填 充 TCP 首 部 其 他 字段 ， 并 计算 TCP 检 验 和 。 


S "n tcp output.c 
374 * Calculate receive window. Don't shrink window, 

372 * but avoid silly window syndrome. 

373 "y 

374 if (win « (long) (so-»so rcv.sb hiwat / 4) && win « (long) tp-»t maxseg) 
375 win s 0; 

376 if (win > (long) TCP. MAXWIN << tp-»rcv. scale) 

377 win - (long) TCP MAXWIN «« tp-»rcv. scale; 

378 if (win < (long) (tp-»rcv adv = tp-»rcv nxt)) 

379 win - (long) (tp-»rcv adv - tp-»rcv nxt); 

380 ti-»ti win = htons((u short) (win >> tp-»rcv scale)); 

381 if (SEQ GT(tp-»snd up, tp-»snd nxt)) ( 

382 ti-»ti urp = htons((u short) (tp-»snd up = tp-»snd nxt)); 
383 ti-»ti. flags |= TH URG; 

384 ) else 

385 od 

386 * If no urgent pointer to send, then we pull 

387 * the urgent pointer to the left edge of the send window 
388 * so that it doesn't drift into the send window on sequence 
389 * number wraparound. 

390 x 

391 tp-»snd up = tp-»snd una; /* drag it along */ 

392 y 

393 * Put TCP length in extended header, and then 

394 * checksum extended header and data. 

395 ui" À 

396 if (len + optlen) 

397 ti-»ti. len = htons((u short) (sizeof(struct tcphdr) + 

398 optlen + len)); 

399 ti-»ti sum = in, cksum(m, (int) (hdrlen + 1len)); 


tcp output.c 


图 26-29 tcp output H: 填充 其 他 TCP 首 部 字段 并 计算 检验 和 
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18. 通告 的 窗口 大 小 应 大 于 最 大 报 文 段 长 度 
370-375 计算 向 对 端 通告 的 窗口 大 小 (ti_win) 时 ， 应 考虑 如 何 避 免 糊涂 窗口 综合 征 。 回 想 
图 26-3 结 尾 处 ，win 等 于 插口 的 接收 缓存 大 小 。 如 果 win 小 于 接收 缓存 大 小 的 
1/4(so_rcv.sb_hiwat)， 并 且 小 于 一 个 最 大 报 文 段 长 度 ， 则 通告 的 窗口 大 小 设 为 0， 从 而 在 
后 续 测 试 中 防止 窗口 缩小 。 也 就 是 说 ， 如 果 可 用 空间 已 达到 接收 缓存 大 小 的 1/4， 或 者 等 于 最 
大 报 文 段 长 度 ， 将 癌 对 端 发 送 窗口 更 新 通告 。 

19. 遵守 连接 的 通告 窗口 大 小 的 上 限 
376-377 如 果 win 大 于 连接 规定 的 最 大 值 ， 应 将 其 减少 为 最 大 值 。 

20. 不 要 缩小 窗口 
378-379 回想 图 26-10 中 ，rcv_adv 减 去 rcv_nxt 等 于 最 近 一 次 向 发 送 方 通告 的 窗口 大 小 
中 的 剩余 空间 。 如 果 win 小 于 它 ， 应 将 其 设 定 为 该 值 ， 因 为 不 允许 缩小 窗口 。 有 时 尽管 剩余 
的 可 用 空间 小 于 最 大 报 文 段 长 度 ( 因 此 ，win 在 代码 起 始 处 被 置 为 0)， 但 还 可 以 容纳 一 些 数据 ， 
就 会 出 现 这 种 情况 。 卷 1 中 的 图 22-3 举 例 说 明了 这 一 现象 。 

21. 设置 紧 总 数据 偏 移 量 
381-383 如 条 紧急 指针 (sndq_up) 大 于 snd_nxt， 则 TCP 处 于 紧急 方式 。TCP 首 部 的 紧急 数据 偏 
移 量 字段 设 定 为 以 报 文 段 起 始 序号 为 基准 的 紧急 指针 的 16 bit 偏 移 量 ， 并 且 置 位 URG 标 志 。 无 论 
所 指 癌 的 紧急 数据 是 否 包 含 在 当前 处 理 的 报 文 段 中 ，TCP 都 会 发 送 紧急 数据 偏 移 量 和 URG 标 志 。 

图 26-30 举 例 说 明了 如 何 计算 紧急 数据 偏 移 量 ， 假 定 应 用 进程 执行 了 

send (fd, buf, 3, MSG OOB); 
并 且 调 用 send 时 发 送 缓存 为 空 。 这 种 做 法 表明 基于 Berkeley 的 系统 认为 紧急 指针 应 指向 带 
外 数据 后 的 第 一 个 字 节 。 回 想 图 24-10 中 ， 我 们 区 分 了 数据 流 中 32 bit 的 紧急 指针 (snd_up)， 
以 及 TCP 首 部 中 的 16 bit 紧 急 数据 偏 移 量 (ti_urp)。 

这 里 有 个 小 错误 。 无 论 是 否 采用 窗口 大 小 选项 ， 如 果 发 送 缓存 大 于 65$35， 并 且 

几乎 为 空 ， 则 应 用 进程 发 送 带 外 数据 时 ， 从 sna nxt 算 起 的 紧急 指针 的 偏 移 量 有 可 

能 超过 65535。 但 偏 移 量 是 一 个 16 bit 的 无 符号 整数 ， 如 果 计 算 结果 超过 65535， 高 位 

16 bit 被 丢弃 ， 发 送 到 对 端的 数据 必然 是 错误 的 。 解 决 办 法 参见 习题 26.6， 
384-391 如 末 TCP 不 处 于 紧急 方式 ， 则 紧急 指针 移 向 窗口 的 最 左 端 (snd_una)。 
392-399 TCP 长 度 存储 在 伪 首 部 中 以 计算 TCP 检 验 和 。 — 
到 目前 为 止 ，TCP 首 部 的 所 有 字段 已 填充 完毕 , 而 且 从 to na.sbccc3 
t _ template 复制 IP 和 TCP 首 部 模板 时 (图 26-26)， 对 父 


首部 中 用 到 的 IP 首 部 部 分 字段 预先 做 了 初始 化 ( 见 图 23-19 | ” ” * 
中 UDP 检验 和 的 计算 )。 i : 
图 26-31 给 出 了 tcp_output 下 一 部 分 的 代码 ，SYN ^ snd una —— 
或 FIN 标 志 置 位 时 更 新 序号 ， 并 启动 重 传 定时 器 。 Snd-nxE 由 PRU_SENDOOB 设 置 
22. 保存 起 始 序 号 紧急 数据 偏 移 量 =3 
400-405 如果 TCP 不 处 于 持续 状态 ， 则 起 始 序 号 保存 由 tcp_output 设 定 


企 startseg 中 o Ik 26-3 l 中 的 代码 在 对 报 文 段 计时 时 用 图 26-30 紧急 指针 与 紧急 数据 
到 这 一 变量 。 偏 移 量 计算 举例 
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260 tcp output.c 
401 * In transmit state, time the transmission and arrange for 
402 * the retransmit. In persist state, just set snd max. 
403 
404 (tp-»t force ss 0 |] tp-»t.timer[TCPT PERSIST] == 0) ( 
405 tcp seq startseq = tp-»snd, nxt; 
406 p” 
407 * Advance snd nxt over sequence space of this segment. 
408 ul 3 
409 if (flags & (TH SYN | TH FIN)) ( 
410 if (flags & TH SYN) 
411 tp-»snd nxt--; 
412 if (flags & TH FIN) ( 
413 tp-»snd nxt-4-; 
414 tp-»t flags |= TF SENTFIN; 
415 } 
416 } 
417 tp->snd_nxt += len; 
418 if (SEQ GT(tp-»snd nxt, tp-»snd max)) ( 
419 tp-»-»snd max = tp-»snd nxt; 
420 yx 
421 * Time this transmission if not a retransmission and 
422 * not currently timing anything. 
423 xl i 
424 lif itp-»t.rtt se 0) { 
425 tp-»t rtt 1; 
426 tp-»t rtseq = startseq; 
427 tcpstat.tcps segstimed-«-«; 
428 ) 
429 ) 
430 /* 
431 * Set retransmit timer if not currently set, 
432 * and not doing an ack or a keepalive probe. 
433 * Initial value for retransmit timer is smoothed 
434 * round-trip time + 2 * round-trip time variance. 
435 * Initialize counter which is used for backoff 
436 * of retransmit time. 
437 T 
438 if (tp-»t timer[TCPT REXMT] == 0 && 
439 tp-»snd nxt !- tp-»snd una) ( 
440 tp-»t timer[TCPT REXMT] = tp-»t rxtcur; 
441 if (tp-»t timer[TCPT PERSIST]) ( 
442 tp-»t timer[TCPT PERSIST] = 0; 
443 tp-»t rxtshift = 0; 
444 ) 
445 ) 
446 } else if (SEQ GT(tp-»snd nxt + len, tp-»snd max)) 
447 tp-»snd max = tp-»snd nxt + len; 
tcp output.c 


图 26-31 tcp outputiKA: 更 新 序号 并 启动 重 传 定 时 器 


23. 增加 snd_ nxt 
406-417 由 于 SYN 和 FIN 都 占用 一 个 序号 ， 其 中 任 一 标志 置 位 ，snd _ nxt 都 必须 增加 。FIN 
发 送 过 后 ，TF_SENTFIN 将 置 位 。 之 后 ，snqd_nxt 增 加 发 送 的 数据 字 韦 数 (len)， 可 以 为 0。 
24. 更 新 snd max 
418-419 如 果 snd_nxt 的 最 新 值 大 于 snd_max， 则 不 是 重 传 报 文 。snd_max 值 被 更 新 。 
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420-428 如 果 连 接 目前 还 没有 RTT 值 (t_rtt=0)， 则 定时 器 启动 (t_rtt=1)， 计 时 报 文 段 的 
起 始 序号 保存 在 t_rtseq 中 。tcp_input 利 用 它 确定 计时 报 文 段 ACK 的 到 达 时 间 ， 从 而 更 
新 RTT。 根 据 25.10 节 中 的 讨论 ， 代 码 应 为 : 


if (tp-»t rtt && SEQ GT(ti-»ti ack, tp-»t rtseq)) 
tcp xmit timer(tp, tp-»t rtt); 


25. 设 定 重 传 定时 器 
430-440 如 果 重 传 定 时 器 还 未 启动 ， 并 且 报 文 段 中 有 数据 ， 则 重 传 定时 恬 时 限 设 定 为 
t rxtcur。 前 面 已 经 介绍 过 ， 通 过 测量 RTT 样 本 值 ，t cp_xmit timer 将 更 新 t_rxtcur。 
但 如 果 snd_nxt 等 于 sndq_una( 此 时 snda_nxt 中 已 加 入 了 1en)， 则 是 一 个 纯 ACK 报 文 段 ， 而 
只 有 在 发 送 数据 报 文 段 时 才 需 要 启动 重 传 定时 器 。 
441-444 如果 持 续 定时 器 已 启动 ， 则 关闭 它 。 对 于 给 定 连 接 ， 可 以 在 任何 时 候 局 动 重 传 定 
时 器 或 者 持续 定时 器 ， 但 两 者 不 允许 同时 存在 。 

26. 持续 状态 
446-447 由 于 t_force 非 零 ， 而 且 持 续 定 时 器 已 设 定 ， 可 知 连接 处 于 持续 状态 (与 图 26-31 起 
始 处 的 1£ 语 句 配对 的 else 语 句 )。 需 要 时 ， 更 新 snd_max。 处 于 持续 状态 时 ，len 应 等 于 1。 

tcp_output 的 最 后 一 部 分 ， 在 图 26-32 中 给 出 ， 输 出 报 文 段 准备 完毕 ， 调 用 
ip_output 发 送 数据 报 。 


iz: e tcp output.c 
449 * Trace. 

450 *J 

451 if (so-»so options & SO DEBUG) 

452 tcp trace(TA OUTPUT, tp-»t state, tp, ti, 0); 

453 JE 

454 * Fill in IP length and desired time to live and 

455 * send to IP level. There should be a better way 

456 * to handle ttl and tos; we could keep them in 

457 * the template, but need a way to checksum without them. 

458 m 

459 m->m_pkthdr.len = hdrlen + len; 

460 ( (struct ip *) ti)->ip_len = m-»m pkthdr.len; 

461 ((latruct ip *) ti)-»ip.ttl = tp-»t.inpcb-»inp.ip.ip.ttl; /* XXX *J/ 
462 ((struet ip *) til)-»ip.tos = tp-5»t inhpcb-»inp.ip.ip.tos; /* XXX */ 
463 error - ip output(m, tp-»t inpcb-»inp options, &tp-»t inpcb-»inp route, 
464 SO-»SO options & SO DONTROUTE, 0); 

465 if (error) ( 

466 out: 

467 if (error == ENOBUFS) ( 

468 tcp quench(tp-»t. inpcb, 0); 

469 return (0); 

470 ) 

471 if ((error == EHOSTUNREACH || error == ENETDOWN) 

472 && TCPS HAVERCVDSYN(tp-»t state)) { 

473 tp-»t softerror = error; 

474 return (0); 

475 ) 

476 return (error); 

477 ) 


[26-32 tcp output Á: 调用 ip_output 发 送 报 文 段 
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478 tcpstat.tcps, sndtotal-«-; 
479 i k 
480 * Data sent (as far as we can tell). 
481 * If this advertises a larger window than any other segment, 
482 * then remember the size of the advertised window. 
483 * Any pending ACK has now been sent. 
484 wy 
485 if (win = 0 && SEQ GT(tp-»rcv nxt + win, tp-»rcv. adv)) 
486 tp-»rcv adv = tp-»rcv nxt + win; 
487 tp-»last ack, sent = tp-»rcv nxt; 
488 tp-»t flags &- "(TF ACKNOW | TF DELACK); 
489 if (sendalot) 
490 goto again; 
491 return (0); 
492 ) 
Icp output.c 
图 26-32 (Z2) 
27. 为 插口 调试 添加 路 由 记录 


448-452 如果 选 用 了 So_DEBUG 选 项 ,tcpP_trace 会 在 TCP 的 循环 路 由 缓存 中 添加 一 条 记 
录 ，27.10 市 将 详细 讨论 这 个 函数 。 

28. 设置 IP 长 度 、TTL 和 TOS 
453-462 IP 首 部 的 3 个 字段 必须 由 传输 层 设 置 : IP 长 度 、TTL 和 TOS， 图 23-19 底 部 用 星 号 强 
调 了 这 3 个 特殊 字段 。 

注意 ， 注 释 的 内 容 为 “XXX”， 这 是 因为 尽管 对 于 给 定 连接 ，TTL 和 TOS 通 常 是 
常量 ， 可 以 保存 在 首部 模板 中 ， 不 需要 每 次 发 送 报 文 段 时 都 明确 赋值 。 只 有 当 TCP 检 
验 和 计算 完毕 后 ,这 两 个 字段 才能 填 入 IP 首 部 ， 因 此 只 能 这 样 实现 。 


29. 向 IP 传 递 数据 报 
463-464 ip output 发 送 携带 TCP 报 文 段 的 数据 报 。ITCP 的 插口 选项 和 SO_DONTROUTE 远 
辑 与 ， 从 而 能 向 PP 层 传 送 的 插口 选项 只 有 一 个 : SO_DONTROUTE。 尽 管 ip_output 还 测试 另 
一 个 选项 SO_BROADCAST, 但 即使 设 定 了 它 ， 与 SO_DONTROUTE 的 远 辑 与 也 会 将 其 关闭 。 也 
就 是 说 ， 应 用 进程 不 允许 向 一 个 广播 地 址 发 送 connect ， 即 使 它 设 定 了 SO_BRORADCRAST 选 项 。 
467-470 如果 接口 队列 已 满 ， 或 者 IP 请 求 分 配 mbuf 失 败 ， 则 返回 差错 码 ENOBUFS，。， 
tcp_gquench 把 拥塞 窗口 设 定 为 只 能 容纳 一 个 最 大 报 文 段 长 度 ， 强 迫 连 接 执行 慢 起 动 。 注 意 ， 
出 现 上 述 情况 时 ，TCP 仍 旧 返 回 0(OK)， 而 非 错误 ， 即 使 数据 报 实 际 已 丢弃 。 这 与 
udp_output( 图 23-20) 不 同 ， 后 者 返回 一 个 错误 。TCP 将 通过 超时 重 传 该 数据 报 ( 数 据 报 文 
段 )， 和 希望 那 时 在 接口 输出 队列 中 会 有 可 用 空间 或 者 能 申请 到 更 多 的 mbuf。 如 果 TCP 报 文 段 不 
包含 数据 ， 对 端 由 于 未 收 到 ACK 而 引发 超时 时 ， 将 重 传 由 丢失 的 ACK 所 确认 的 数据 。 
471-475 如 果 连 接 已 收 到 一 个 SYN， 但 找 不 到 至 目的 地 的 路 由 ， 则 记录 连接 上 出 现 了 一 个 
软 错误 。 

当 tcp_output 被 tcp_usrreq 调 用 ， 作 为 应 用 进程 系统 调用 的 一 部 分 时 (参见 第 30 章 ， 
PRU CONNECT PRU SEND. PRU SENDOOB 和 PRU SHUTDOWN 请 求 )， 应 用 进程 将 接收 
tcp_output 的 返回 值 。 其 他 调用 tcp_output 的 尔 数 ， 如 tcp_input、 快 超时 函数 和 慢 
超时 国 数 ， 忽 略 其 返回 值 (因为 这 些 国 数 不 同 应 用 进程 返回 差 钳 码 )。 
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30. 更 新 rcv_adv 和 last ack sent 
479-486 如 末 报 文 段 中 通告 的 最 高 序号 (Ycv_nxt 加 上 win) 大 于 rcv_adv， 则 保存 新 的 值 。 
回想 图 26-9 中 利用 rcv_adv 确 定 最 后 一 个 报 文 段 发 送 后 新 增 的 可 用 空间 ， 以 及 图 26-29 中 利用 


它 确定 TCP 没 有 缩小 窗口 。 
487 报 文 段 确认 字段 的 值 保存 在 last_ack_sent 中 ,tcp_input 利 用 它 处 理 时 间 稚 选项 
(图 26-6)。 
488 由 于 所 有 延迟 的 ACK 都 已 被 发 送 ，TF_ACKNOW 和 TF_DELACK 标 志 被 清除 。 
31. 是 否 还 有 数据 需要 发 送 


489-490 如 果 sendalot 标 志 置 位 ， 控 制 跳 回 到 again 处 (图 26-1)。 如 果 发 送 缓存 中 的 数据 
超过 一 个 最 大 长 度 报 文 段 的 容量 (图 26-3)， 或 者 由 于 加 入 TCP 选 项 ， 降 低 了 最 大 长 度 报 文 段 的 
数据 容量 ， 无 法 在 一 个 报 文 段 中 将 缓存 中 的 数据 发 送 完 毕 时 ， 控 制 将 折 回 。 


26.8 tcp template% 


创建 插口 时 ， 将 调用 tcp_newtcpcb( 见 前 一 章 ) 为 TCP 控 制 块 分 配 内 存 ， 并 完成 部 分 初 
始 化 。 当 在 插口 上 发 送 或 接收 第 一 个 报 文 段 时 (主动 打开 ，PRU_CONNECT 请 求 ， 或 者 在 监听 
的 插口 上 收 到 了 一 个 SYN)，tcp_template 为 连接 的 IP 和 TCP 的 首部 创建 一 个 模板 ， 从 而 减 
少 了 报 文 段 发 送 时 tcp_output 的 工作 量 。 

图 26-33 给 出 了 tcp templater&Zi, 


tcp subr.c 
59 struct tcópiphdr * 
60 tcp template(tp) 
61 struct tcpcb *tp; 
62 ( 
63 struct inpcb *inp = tp-»t inpcb; 
64 struct mbuf *m; 
65 struct tcpiphdr *n; 
66 if ((n = tp-»t template] == 0) (1 
67 m -m get(M DONTWAIT, MT HEADER); 
68 if (m == NULL) 
69 return (0); 
70 m-»m len - sizeof(struct tcpiphdr); 
71 n = mtod(m, struct tcpiphdàr *); 
72 ) 
73 n-»ti next - n-»ti prev - 0; 
74 n-»ti.x1 = 0; 
13 n-»ti. pr = IPPROTO TCP; 
76 n-»ti len = htons(sizeof(struct tcpiphdr) - sizeof(struct ip)); 
77 n-»ti src = inp-»inp laddr; 
78 n-»ti dst - inp-»inp faddr; 
79 n-»ti sport = inp-»inp lport; 
80 n-»ti dport = inp-»inp.fport; 
81 n-»ti seq = 0; 
82 n-»ti ack = 0; 
83 n-»ti x2 = 0; 
84 n-»ti. off s 5; /* 5 32-bit words - 20 bytes */ 
85 n-»ti flags = O0; 
86 n-»ti win = O0; 
87 n-»ti sum = 0; 
88 n-»ti. urp = 0; 
89 return (n); 
90 ) 

tcp subr.c 


图 26-33 tcp templates: 创建 IP 和 TCP 首 部 的 模板 
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1. 分 配 mbuf | 
59-72 IP 和 TCP 的 首部 模板 在 一 个 mbuf 中 组 建 ， 指 向 这 个 mbuf 的 指针 存储 在 TCP 控 制 块 的 
t_template 成 员 变 量 中 。 由 于 这 个 函数 可 在 软件 中 断 级 被 tcp_input 调 用 ， 
M DONTWAIT 标 志 置 位 。 

2. 初始 化 首部 字段 
73-88 除 下 列 字段 外 ，IP 和 TCP 首 部 的 其 他 字段 均 置 为 0: ti_pr 等 于 TCP 的 IP 协 议 值 (6)， 
ti_len 等 于 20，TCP 首 部 的 默认 值 ，ti_off 等 于 ，TCP 首 部 长 度 ， 以 32 bit 为 单位 ， 此 外 ， 
还 要 从 Internet PCB 中 把 源 IP 地 址 、 目 的 IP 地 址 和 TCP 端 口号 复制 到 TCP 首 部 模板 中 。 

3. 用 于 TCP 检 验 和 计算 的 伪 首 部 
73-88 由 于 预先 对 IP 和 TCP 首 部 中 许多 字段 做 了 初始 化 ， 简 化 了 TCP 检 验 和 的 计算 ， 方法 与 
23.6 节 中 讨论 过 的 UDP 首 部 检验 和 的 计算 方式 相同 。 参 考 图 23-19 中 的 udpiphar 结 构 ， 请 读 
者 自己 思考 为 什么 tcp_template 将 ti_next 和 ti_prev 等 字段 初始 化 为 0。 


26.9 tcp respondi ži 


国 数 上 tcp_respond 尽 管 也 调用 ip_output 发 送 IP 数 据 报 ， 但 用 途 不 同 。 主 要 在 下 面 两 
种 情况 下 调用 它 : 

1) 上 tcp_input 调 用 它 生 成 RST 报 文 段 ， 携 融 或 不 携带 ACK; 

2) tcp_timers 调 用 它 发 送 保 活 探测 报 文 。 

在 这 两 种 特殊 情况 下 ，TCP 调 用 tcp_respond， 取代 tcp_output 中 复杂 的 逻辑 。 但 请 
注意 ， 下 一 章 中 讨论 的 tcp_qrop 国 数 调用 cp_output 来 生成 RST 报 文 段 。 并 非 所 有 的 
RST 报 文 段 都 由 tcPp_responda 生 成 。 

图 26-34 给 出 了 tcp _ respond 的 前 半 部 分 。 


tcp_subr.c 
104 void Te 


105 tcp respond(tp, ti, m, ack, seq, flags) 
106 struct tcocpcb *tp; 

107 struct tcpiphdr *ti; 

108 struct mbuf *m; 

109 tcp seq ack, seq; 


110 int flags; 

111 4d 

112 int tlen; 

113 int win = 0i 

114 struct route tro = 0; 

115 if (tp) i 

116 win - sbspace(&tp-»t inpcb-»inp socket-»so rcv); 
117 ro = &tp-»t inpcb-»inp. route; 

118 ) 

119 if (m == 0) { /* generate keepalive probe */ 
120 m = m gethdr(M DONTWAIT, MT HEADER); 

121 lt (m == NULL) 

122 return; 

123 tlen = 0; /* no data is sent */ 
124 m-»m data += max linkhdr; 3 

125 *mtod(m, struct tcpiphdr *) = *ti; 


图 26-34 tcp respond 国 数 : 前 半 部 分 
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126 ti = mtod(m, struct tcpiphdr *); 
127 flags - TH ACK; 
128 ) else ( /* generate RST segment */ 
129 m freem(m-»m next); 
130 m-»m next = 0; 
l31 m-»m data = (caddr.t) ti; 
132 m-»m len - sizeof(struct tcpiphdr); 
133 tien «e 0; 
134 #define xchg(a,b,type) ( type t; t=a; a=b; b-t; ) 
135 xchg(ti-»ti dst.s,addr, ti-»ti src.s addr, u long); 
136 xchg(ti-»ti. dport, ti-»ti sport, u. short); 
137 #undef xchg 
138 ) 
tcp subr.c 
[26-34 (£x) 


104-110 图 26-35 列 出 了 3 种 不 同情 况 下 调用 tcp_respond 时 其 参数 的 变化 。 


生成 不 带 ACK 的 RST 


TH RST| 
生成 带 ACK 的 RST I TH ACK 





图 26-35 tcp respond 的 参数 


tp 是 指向 TCP 控 制 块 的 指针 (可 能 为 空 )， ti 是 指向 IP 和 TCP 首 部 模板 的 指针 ; mau] 
mbuf 的 指针 ， 其 中 的 报 文 段 引 发 RST。 最 后 3 个 参数 是 确认 字段 、 序 号 字段 和 待 生成 报 文 段 的 
Tab f Ex. 
113-118 如 打上 tcp_input 收 到 一 个 不 属于 任何 连接 的 报 文 段 ， 则 有 可 能 生成 RST。 例 如 ， 
收 到 的 报 文 段 中 没有 指明 任何 现存 连接 (如 ，SYN 指 明 的 端口 上 没有 正在 监听 的 服务 器 )。 这 种 
情况 下 ，tP 为 空 ， 使 用 win 和 ro 的 初始 值 。 如 果 tp 不 空 ， 则 通告 窗口 大 小 将 等 于 接收 缓存 中 
的 可 用 空间 ， 指 向 缓存 路 由 的 指针 保存 在 ro 中 ， 在 后 面 调用 tcp_input 时 会 用 到 。 

1. 保 活 定时 器 超时 后 发 送 保 活 探测 
119-127 参数 m 是 指 癌 接收 报 文 段 的 mbuf 链 表 的 指针 。 但 保 活 探测 报 文 只 有 当 保 活 定时 器 
超时 时 才 会 被 发 送 ， 收 到 的 TCP 报 文 段 不 可 能 引发 此 项 操作 ， 因 此 m 为 空 ， 由 m_gethdr 分 配 
保存 IP 和 TCP 首 部 的 mbuf。TCP 数 据 长 度 tlen， 设 为 0， 因 为 保 活 探测 报 文 不 包含 任何 用 户 
数据 。 


有 些 基 于 4.2BSD 的 较 老 的 系统 不 响应 保 活 探测 报 文 ， 除 非 它 携带 数据 。 通 过 配 
置 ， 在 编译 内 核 时 定义 TCP COMPAT 42，Net/3 能 够 在 保 活 探测 报 文中 携带 一 个 字 
节 的 无 效 数 据 ， 以 引出 这 些 系统 的 响应 。 这 种 情况 下 ,上 1len 设 为 1， 而 非 0。 无 效 字 
不 会 造成 不 良 后 果 , 因为 它 不 是 对 方正 等 待 (而 是 一 个 对 方 已 接收 并 确认 过 ) 的 字 节 
A x. 
利用 赋值 语句 把 ti 指向 的 TCP 首 部 模板 结构 复制 到 mbuf 的 数据 部 分 ， 之 后 指针 ti 将 被 重 
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新 设 定 ， 指 向 mbuf 中 的 首部 模板 。 

2. 发 送 RST 报 文 段 
128-138 接收 到 的 报 文 段 有 可 能 会 引发 tcp_input 发 送 RST。 发 送 RST 时 ， 保 存 输 入 报 文 
段 的 mbuf 可 以 重用 。 因 为 tcp_respondq 生 成 的 报 文 段 中 只 包含 I 了 P 首 部 和 TCP 首 部 ， 因 此 ， 除 
第 一 个 mbuf 之 外 (数据 分 组 首部 )，m_free 将 释放 链表 中 其 余 的 所 有 mbuf。 另 外 ， 了 IP 首 部 和 
TCP 首 部 中 的 源 IP 地 址 和 目的 IP 地 址 及 端口 号 应 互 换 。 

图 26-36 给 出 了 tcp _ respond 的 后 半 部 分 。 


0 
139 ti-»ti len = htons((u short) (sizeof(struct tcphdr) + tlen)); 
140 tlen += sizeof(struct tcpiphdr); 
141 m-»m len - tlen; 
142 m-»m pkthdr.len - tlen; 
143 m-»m pkthdr.rcvif = (struct ifnet *) 0; 
144 ti-»ti next = ti-»ti prev = 0; 
145 Ebi-sfi.xl s 0; 
146 ti-»ti. seq = htonl (seq); 
147 ti-»ti. ack = htonl (ack); 
148 ti-»ti.x2 s 0; 
149 ti-»ti off = sizeof(struct topbar) »» 2; 
150 ti-»ti. flags = flags; 
151 if (tp) 
152 ti-»ti win = htons((u short) (win >> tp-»rcv scale)); 
153 else 
154 ti-»ti. win = htons((u short) win); 
155 ti-»ti urp = 0; 
156 ti-»ti. sum = 0; 
157 ti-»ti sum = in cksum(m, tlen); 
158 ((atruct ip *) ti)-»i1p.len s tlen; 
159 (trut ip *) ti)-»J1p ttl = ip defrtl; 
160 (void) ip outputí(m, NULL, ro, 0, NULL); 
161 ) 
tcp. subr.c 


图 26-36 tcp respond 函 数 : 后 半 部 分 


139-157 为 计算 TCP 检 验 和 ，IP 和 和 TCP 首部 字段 必须 被 初始 化 。 这 些 语句 与 
tcp_template 初 始 化 t_template 字 段 的 方式 类 似 。 序 号 和 确认 字段 由 调用 者 提供 ， 最 后 
调用 ip_output 发 送 数 据 分 组 。 


26.10 ”小 结 


本 章 讨 论 了 生成 大 多 数 TCP 报 文 段 的 通用 函数 (tcp_output) 及 生成 RST 报 文 段 和 保 活 探 
测 的 特殊 函数 (tcp_responqd)。 

TCP 是 否 发 送 报 文 段 取决 于 许多 因素 : 报 文 段 中 的 标志 、 对 端 通告 的 窗口 大 小 、 待 发 送 
的 数据 量 以 及 连接 上 是 否 存在 未 确认 的 数据 等 等 。 因 此 ，tcp_output 中 的 逻辑 决定 了 和 是否 
发 送 报 文 段 (函数 的 前 半 部 分 )， 如 果 需 要 发 送 ， 如 何 填 充 TCP 首 部 的 字段 (函数 后 半 部 分 )。 报 
文 段 发 送 之 后 ， 还 需要 更 新 TCP 控 制 块 中 的 相应 变量 。 

tcp_output 一 次 只 生成 一 个 报 文 段 ， 但 它 在 结尾 处 会 测试 是 否 还 有 剩余 数据 等 待 发 送 ， 
如 果 有 ， 控 制 将 折 回 ， 并 试图 发 送 下 一 个 报 文 段 。 这 样 的 循环 会 一 直 持 续 到 数据 全 部 发 送 完 
毕 ， 或 者 有 其 他 停止 传输 的 条 件 出 现 (接收 方 的 窗口 通告 )。 
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TCP 报 文 段 中 可 以 携带 选项 。Net3 支 持 的 选项 规定 了 最 大 报 文 段 长 度 、 窗 口 大 小 缩放 因 
于 和 一 对 时 间 惟 。 头 两 个 选项 只 能 出 现在 SYN 报 文 段 中 ， 而 时 间 惟 选项 (如 果 连 接 双 方 都 支持 ) 
能 够 出 现在 所 有 报 文 段 中 。 因 为 窗口 大 小 和 时 间 惟 是 新 增 的 选项 ， 如 果 主 动 打开 的 一 端 希 望 
使 用 这 些 选 项 ， 则 必须 在 自己 发 送 的 SYN 中 添加 它们 ， 并 且 只 有 在 对 端 发 回 的 SYN 也 包含 了 
同样 的 选项 时 才能 使 用 。 
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图 26-1 中 ， 如 果 发 送 数据 过 程 中 出 现 停顿 ，TCP 将 返回 慢 局 动 状态 ， 而 空闲 时 间 被 
设 定 为 从 最 后 一 次 收 到 报 文 段 到 现在 的 时 间 。 为 什么 TCP 不 将 空闲 时 间 设 定 为 从 最 
后 一 次 发 送 报 文 到 现在 的 时 间 ? 

图 26-6 中 ， 我 们 说 如 果 FIN 已 发 送 ， 但 还 未 被 确认 且 没 有 重 传 ， 此 时 len 小 于 0。 如 
采 FIN 已 重 传 ， 情 况 会 怎样 ? 

Net/3 总 在 主动 打开 时 发 送 窗 口 大 小 和 时 间 惟 选项 。 为 什么 需要 全 局 变量 
tep do rre 13237 

图 25-28 中 的 例子 未 使 用 时 间 戳 ，RTT 估 算 值 被 更 新 了 8 次 。 如 果 使 用 了 时 间 戳 ， 
RIT 估 算 值 会 被 更 新 几 次 ? 

图 26-23 中 ， 调 用 bcopy 把 收 到 的 MSS 存 储 在 变量 mss 中 。 为 什么 不 对 指向 opt[2] 
的 指针 做 强制 转换 ， 变 为 不 带 符号 的 短 整 型 指针 ， 并 利用 赋值 语句 完成 这 一 操作 ? 
在 图 26-29 后 面 ， 我 们 讨论 了 代码 的 一 个 错误 ， 可 能 会 导致 发 送 一 个 错误 的 紧急 数 
据 偶 移 量 。 提 出 你 的 解决 方案 。( 提 示 : 一 个 TCP 报 文中 能 够 发 送 的 最 大 数据 量 是 多 
^h?) 

图 26-32 中 ， 我 们 提 到 不 会 回应 用 进程 返回 差错 代码 ENOBUFS ， 因 为 (1H) 如 果 丢 弃 的 
是 数据 报 文 ， 重 传 定 时 器 超时 后 数据 将 被 重 传 ，(2) 如 果 丢 弃 的 是 纯 ACK 报 文 ， 对 
闹 收 不 到 ACK 时 会 重 传 对 应 的 数据 报 文 。 如 果 丢 弃 的 是 RST 报 文 ， 情 况 会 怎样 ? 
解释 卷 1 图 20-3 中 PSH 标 志 的 设 定 。 

为 什么 图 26-36 使 用 ip_deftt1l1 作 为 TTL 的 值 ， 而 图 26-32 却 使 用 PCB? 

如 末 应 用 进程 规定 的 IP 选 项 是 用 于 TCP 连 接 的 ， 图 26-25 中 分 配 的 mbuf 会 出 现 什么 
情况 ?实现 一 个 更 好 的 方案 。 

tcp_output 函 数 很 长 (包括 注释 约 500 行 )， 看 上 去 效率 不 高 ， 其 中 许多 代码 用 于 
处 理 特殊 情况 。 假 定 函 数 只 用 于 处 理 准 备 好 的 最 大 长 度 报 文 ， 且 没有 特殊 情况 : 
无 IP 选 项 ， 无 特殊 标志 如 SYN、FIN 或 URG。 实 际 执行 的 约 有 多 少 行 C 代 码 ? 报 文 
递交 给 ip_output 之 前 会 调用 多 少 函 数 ? 

26.3 市 结尾 的 例子 中 ， 应 用 程序 向 连接 写 入 100 字 节 ， 接 着 又 写 入 50 字 节 。 如 果 应 
用 程序 为 两 个 缓存 各 调用 一 次 wzitev， 而 不 是 调用 write 两 次 ， 有 何不 同 ? 如 
来 两 个 缓存 大 小 分 别 为 200 和 300， 而 不 是 100 和 50， 调 用 writev 时 又 有 何不 同 ? 
在 时 间 戳 选项 中 发 送 的 时 间 戳 来 自 于 全 局 变量 tcp_now， 它 每 500ms 递 增 一 次 。 
修改 TCP 代 码 ， 使 用 更 精确 的 时 间 戳 值 。 
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27.1 引言 


本 章 介 绍 多 个 TCP 函 数 ， 它 们 为 下 两 章 进一步 讨论 TCP 的 输入 打下 了 基础 : 
“tcp_drain 是 协议 的 资源 耗 尽 处 理 函 数 ， 当 内 核 的 mbuf 用 完 时 被 调用 。 实 际 上 ， 不 做 
任何 处 理 。 

“tcp_drop 发 送 RST 来 丢弃 连接 。 

“tcp_close 执 行 正 常 的 TCP 连 接 关 闭 操作 发 送 FIN， 并 等 待 协议 要 求 的 4 次 报 文 交换 
以 终止 连 毛 。 卷 1 的 18.2 市 讨论 了 连接 关闭 时 双方 需要 交换 的 4 个 报 文 。 

“tcp_mss 处 理 收 到 的 MSS 选 项 ， 并 在 TCP 发 送 自 己 的 MSS 选 项 时 计算 应 填 入 的 MSS 值 。 
“tcp_ctlinput 在 收 到 对 应 于 某 个 TCP 报 文 段 的 ICMP 差 错时 被 调用 ， 它 接着 调用 
tcp_notify 处 理 ICMP 差 错 。tcp_quench 专 门 负责 处 理 ICMP 的 源 站 抑制 差错 。 

“TCP_RERASS 宏 和 tcp_reass 国 数 管 理 连接 重组 队列 中 的 报 文 段 。 重 组 队列 处 理 收 到 的 
乱 序 报 文 段 ， 某 些 报 文 段 还 可 能 互相 重复 。 

“tcp_trace 同 内 核 的 TCP 调 试 循环 缓存 中 添加 记录 (插口 选项 SO_DEBUG)。 运 行 trpt 
(8) 程 序 可 以 打印 缓存 内 容 。 


27.2 tcp drain ği 


tcp_drain 是 所 有 TCP 函 数 中 最 简单 的 。 它 是 协议 的 pr_drain 函 数 ， 在 内 核 的 mbuf 用 
完 时 ， 由 m_reclaim 调 用 。 图 10-32 中 ，ip_drain 丢 弃 其 重组 队列 中 的 所 有 数据 报 分 片 ， 
而 UDP 则 不 定义 自己 的 资源 耗 尽 处 理 国 数 。 尽 管 TCP 也 占用 mbnuf 位 于 接收 窗口 内 的 乱 序 
报 文 段 一 一 但 Net/3 实 现 的 TCP 并 不 丢弃 这 些 mbuf， 即 使 内 核 的 mbuf 已 用 完 。 相 反 ， 
tcp_drain 不 做 任何 处 理 ， 假 定 收 到 的 (但 次 序 差错 ) 的 TCP 报 文 段 比 IP 分 片 重要 。 





27.3 tcp drop 函数 


tcp_drop 在 整个 系统 中 多 次 被 调用 ， 发 送 RST 报 文 段 以 丢弃 连接 ， 并 向 应 用 进程 返回 差 
错 。 它 与 关闭 连接 (tcp_disconnect 国 数 ) 不 同 ， 后 者 向 对 端 发送 FIN， 并 遵守 TCP 状 态 变 
迁 图 所 规定 的 连接 终止 步骤 。 

图 27-1 列 出 了 调用 tcp_drop 的 7 种 情况 和 相应 的 errno 参 数 。 

图 27-2 给 出 了 tcp _drop 国 数 。 

202-213 如 果 TCP 收 到 了 一 个 SYN， 连 接 被 同步 ， 则 必须 同 对 端 发 送 RST。tcp_qdrop 把 状态 
设 为 CLOSED ， 并 调用 tcp_output。 从 图 24-16 可 知 ，CLOSED 状 态 的 tcp_outflags 数 组 中 
包含 RST 标 志 。 

214-216 如果 errno 等 于 ETIMEDOUT， 朋 连接 上 曾 收 到 过 软 差 钳 ( 如 EHOSTUNREACH)， 
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软 差 错 代 码 将 取代 内 容 不 确定 的 ETIMEDOUT， 作 为 返回 的 插口 差错 。 
217 tcp close 结束 插口 关闭 操作 。 


tcp input ENOBUFS 监听 服务 器 收 到 SYN， 但 内 核 无 法 为 t_template 分 配 所 需 的 
mbuf 

UCRÜRSTIE SEEN RES Y NIRE 
&RUGER HH TRST 

TIERE RESET, DORIUCSDIRIBSACK(NIS-25) 


tcp_timers | ETIMEDOUT xk TEE GEB arah (25-16), KARER arh, HE 
ja 
Deere [0 [ An, ESO ENERE, ER | 


图 27-1 调用 tcp_dqrop 国 数 和 erzrno 参 数 






















tcp subr.c 
202 struct tcpcb * 
203 tcp drop(tp, errno) 
204 struct tcpcb *tp; 
205 int errno; 
206 ( 
207 struct socket *so = tp-»t inpcb-»inp socket; 
208 if (TCPS HAVERCVDSYN(tp-»t state)) ( 
209 tp-»-»t. state = TCPS CLOSED; 
210 (void) tcp output (tp); 
211 tcpstat.tcps drops-«-; 
212 ) else 
213 tcpstat.tcps conndrops-«-; 
214 if (errno == ETIMEDOUT && tp-»t softerror) 
215 errno - tp-»t softerror; 
216 SO-»SO error = errno; 
217 return (tcp close(tp)); 
218 ) 
tcp. subr.c 


图 27-2 tcp qdqrop 国 数 


27.4 tcp _ close 函数 


通常 情况 下 ， 如 果 应 用 进程 被 动 关闭 ， 且 在 LAST_ACK 状 态 时 收 到 了 ACK, tcp_input 
将 调用 tcp_close 关 闭 连 接 ; 或 者 当 2MSL 定 时 器 超时 ,插口 从 TIME_WAIT 状 态 变 迁 到 
CLOSED 状 态 时 ，tcp_timers 也 会 调用 tcp_close。 它 也 可 以 在 其 他 状态 被 调用 ， 一 种 
可 能 是 发 生 了 差错 ， 如 上 一 小 市 讨论 过 的 情况 。tcp_close 释 放 连 接 占用 的 内 存 (IP 和 TCP 
首部 模板 、TCP 控 制 块 、Internet PCB 和 保存 在 连接 重组 队列 中 的 所 有 乱 序 报 文 段 )， 并 更 新 
路 由 特性 。 

我 们 分 3 部 分 讲解 这 个 国 数 ， 前 两 部 分 讨论 路 由 特性 ， 最 后 一 部 分 介绍 资源 释放 。 


27.4.1 路 由 特性 
rt_metrics 结 构 ( 图 18-26) 中 保存 了 9 个 变量 ， 有 6 个 用 于 TCP。 其 中 8 个 变量 可 通过 
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route (8) 命 令 读 写 ( 第 9 个 ，rmx pksent 未 使 用 ): 图 27-3 列 出 了 这 些 变量 。 此 外 ， 运 行 
route 命 令 时 ， 加 入 -1Lock 和 选项， 可 以 设置 xmx locks 成 员 变 量 (图 20-13) 中 对 应 的 RTV xxx 
比特 ， 告 诉 内 核 不 要 更 新 对 应 的 路 由 参数 。 
关闭 TCP 插口 时 ， 如 打下 列 条 件 满 足 : 连接 上 传输 的 数据 量 足 够 生成 有 效 的 统计 值 ， 并 
变量 未 被 锁定 ，tcp_close 将 更 新 3 个 路 由 参数 一 一 已 平 请 的 RIT 估 计 器 、 已 平 请 的 RTT 平 
WE 和 和 慢 起 动 门限 。 


tcp close 是 否 tcp_mss 是 否 
rt metrics 成 员 保存 该 成 员 | 使 用 该 成 员 route(8) 附 加 参数 


图 27-3 TCP 用 到 的 rt_metrics 结 构 中 的 变量 


图 27-4 给 出 了 tcp close 的 第 一 部 分 。 
1. 判断 是 奋发 送 了 足够 的 数据 量 
234-248 默认 的 发 送 缓存 大 小 为 8192 字 有 (sb_hiwat)， 因 此 首先 比较 初始 发 送 序号 和 连 
nd 测试 是 否 已 传输 了 131 072 字 (16 个 完整 的 缓存 ) 的 数据 。 此 外 ， 插 
必须 有 一 条 非 默认 路 由 的 缓存 路 由 (参见 习题 19.2)。 


请 注意 ， 如 果 传 输 的 数据 量 在 Wx 232(N>1) 和 Nx 232+131 072(N>1) 之 间 ， 则 因为 
序号 可 能 回 绕 ， 比较 时 也 许 会 出 现 问 题 ， 尽 管 可 能 性 不 大 。 但 目前 很 少 有 连接 会 传 
输 4 G 的 数据 。 

尽管 Internet 上 存在 大 量 的 默认 路 由 ， 缓 存 路 由 对 于 维护 有 效 的 路 由 表 还 是 很 有 
用 的 。 如 果 主 机 长 期 与 另外 菜 个 主机 (或 网 络 ) 交 换 数 据 ， 即 使 默认 路 由 可 用 ， 也 应 运 
行 Toute 命 令 向 路 由 表 中 添加 源 站 选 路 和 目的 选 路 的 路 由 ， 从 而 在 整 条 连接 上 维护 
有 效 的 路 由 信息 (参见 习题 19.2)。 这 些 信息 在 系统 重启 时 丢失 。 


250 管理 员 可 以 锁定 图 27-3 中 的 变量 ， 防 止 内 核 修 改 它 们 。 因 此 ， 代 码 在 更 新 这 些 变量 之 前 ， 
必须 先 检 查 其 锁定 状态 。 

2. 更 新 RTT 
251-264 t_srtt 的 单位 为 8 个 滴答 (图 25-19)， 而 rmx_rtt 的 单位 为 微 秒 。 因 此 ， 首 先 必须 
实现 单位 换算 ，t _srtt 乘 以 1 000 000(RTM RTTUNIT)， 除 以 2( 滴 答 / 秒 ) 再 乘 以 38， 得 到 RTT 
的 最 新 值 。 如 果 rmx_rtt 值 已 存在 ， 它 被 更 新 为 最 新 值 与 原 有 值 和 的 一 半 ， 即 两 者 的 平均 值 。 
如 果 不 存 在 ， 最 新 值 将 直接 赋 给 rmx_rtt 变 量 。 

3. 更 新 平均 偏差 
265-273 更 新 平均 偏差 的 算法 与 更 新 RIT 的 类 似 ， 也 需要 把 单位 为 4 个 滴答 的 t_zttvar 换 
算 为 以 微 秒 为 单位 。 
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tcp subr.c 
225 struct tcpcb * cp 


226 tcp close(tp) 
227 struct tcpcb *tp; 


228 ( 

229 struct tcpiphdr *t; 

230 struct inpcb *inp - tp-»t inpcb; 

2431 struct socket *so - inp-»inp socket; 

232 struct mbuf *m; 

233 struct rtentry *rt; 

234 g” 

235 * If we sent enough data to get some meaningful characteristics, 
236 * save them in the routing entry.  'Enough' is arbitrarily 
237 * defined as the sendpipesize (default 8K) * 16. This would 
238 * give us 16 rtt samples assuming we only get one sample per 
239 * window (the usual case on a long haul net). 16 samples is 
240 * enough for the srtt filter to converge to within 5$ of the correct 
241 * value; fewer samples and we could save a very bogus rtt. 
242 * 

243 * Don't update the default route's characteristics and don't 
244 * update anything that the user "locked". 

245 *j 

246 if (SEQ LT(tp-»iss + so-»so snd.sb hiwat * 16, tp-»snd max) && 
247 (rt = inp-»inp route.ro rt) && 

248 ( (struct sockaddr in *) rt key(rt))-»sin addr.s addr !- INADDR ANY) ( 
249 u long i; 

250 if ((rt-»rt rmx.rmx locks & RTV RTT) -- 0) ( 

251 i = tp-»t srtt * 

252 (RTM RTTUNIT / (PR SLOWHZ * TCP RTT SCALE)); 

253 if (rt-»rt rmx.rmx rtt && i) 

254 /* 

255 * filter this update to half the old & half 

256 * the new values, converting scale. 

257 * See route.h and tcp var.h for a 

258 * description of the scaling constants. 

259 =y 

260 rt-»rt rmx.rmx rtt = 

261 (ft-»rt EMC XIN rtb « 1) / 2; 

262 else 

263 rYt-»rt rmx.rmx rtt = i; 

264 ) 

265 if ((rt-»rt rmx.rmx locks & RTV RTTVAR) -- 0) ( 

266 i s.tp-»t rttvar * 

267 (RTM RTTUNIT / (PR, SLOWHZ * TCP RTTVAR SCALE)); 
268 if (rt-»rt rmx.rmx rttvar && i) 

269 rt-»rt rmx.rmx rttvar - 

270 (rt-e»rt.rmx.rmx rttvar à) / 2:; 

ZTE else 

272 rt-»rt rmx,rmx rttvar = 1j 

273 ) 


tcp subr.c 
图 27-4 tcp_close 国 数 : 更 新 RTT 和 平均 偏差 


图 27-5 给 出 了 tcp_close 的 下 一 部 分 代码 ， 更 新 路 由 的 慢 起 动 | 门限 。 
274-283 满足 下 列 条 件 时 ， 慢 起 动 门限 被 更 新 : (1) 它 被 更 新 过 (zmx_ssthresh 非 去);，(2) 管 
BEBE T rmx sendpipe, 而 snd ssthresh 的 最 新 值 小 于 rmx_sendpipe 的 一 半 。 如 
同 代码 注释 中 指出 的 ，TCP 不 会 更 新 rmx_ssthresh 值 ， 除 非 因 为 数据 分 组 丢失 而 不 得 不 这 
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样 做 。 从 这 个 角度 出 发 ， 除 非 十 分 必要 ，TCP 不 会 修改 门限 值 。 





TF F tcp subr.c 
215 * update the pipelimit (ssthresh) if it has been updated 
276 * already or if a pipesize was specified & the threshhold 
277 * got below half the pipesize. I.e., wait for bad news 
278 * before we start updating, then update on both good 
279 * and bad news. 
280 *J 
281 if ((rt-»rt rmx.rmx locks & RTV SSTHRESH) -- 0 && 
282 (i = tp-»snd ssthresh) && rt-»rt, rmx.rmx ssthresh || 
283 i < (rt-»rt rmx.rmx sendpipe 7 2)) ( 
284 p% 
285 * convert the limit from user data bytes tọ 
286 * packets then to packet data bytes. 
287 *J 
288 i = (i + tp-»t maxseg / 2) / tp-»t maxseg; 
289 lif (ài « 2) 
290 l cx; 
291 i *- (u long) (tp-»t maxseg + sizeof(struct tcpiphdr)); 
292 if (rt-»rt rmx.rmx ssthresh) 
293 rt-»rt rmx.rmx ssthresh - 
294 (rt-»rt rmx.rmx ssthresh + i) / 2; 
495 else 
296 rt-»rt rmx.rmx ssthresh - i; 
297 ) 
298 ) 
tcp subr.c 


图 27-5 tcp closer: 更 新 慢 起 动 门限 


284-290 变量 snd ssthresh 以 字 节 为 单位 ， 除 以 MSS(L_maxseg) 得 到 报 文 段 数 ， 加 上 
1/2t_maxseg 是 为 了 保证 总 报 文 段 容量 必定 大 于 snd_ssthresh 字 证 。 报 文 段 数 的 下 限 为 2 
个 报 文 段 。 

291-297 MSS 加 上 IP 和 TCP 首 部 大 小 (40)， 再 乘 以 报 文 段 数 ， 利 用 得 到 的 结果 来 更 新 
rmx ssthresh, 采用 的 算法 与 图 27-4 中 的 相同 (新 值 的 1/2 加 上 原 有 值 的 1/2)。 


27.4.2 资源 释放 
图 27-6 给 出 了 tcp_close 的 最 后 一 部 分 ， 释 放 插口 占用 的 内 存 资源 。 


- tcp_subr.c 
299 /* free the reassembly queue, if any */ 
300 t = tp-»seg next; 
301 while (t l= (struct tcpiphdr *) tp) + 
302 t = (struct tcpiphdr *) t-»ti. next; 
303 m - REASS MBUF((struct tcpiphdr *) t-»ti prev); 
304 remque(t-»ti prev); : 
305 m freem(m); 
306 ) 
307 if (tp-»t template) 
308 (void) m free(dtom(tp-»t template)); 
309 free(tp, M PCB); 
310 inp-»inp.ppcb - 0; 


图 27-6 tcp closerüZ&k: 释放 连接 资源 
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311 soisdisconnected(so); 
312 /* clobber input pcb cache if we're closing the cached connection */ 
313 if (inp ss tcp last inpcb) 
314 tcp last inpcb - &tcb; 
345 in. pcbdetach(inp):; 
316 tcpstat.tcps closed-«-; 
311 return ((struct tcpcb *) 0); 
318 ) 
tcp subr.c 
图 27-6 (£x) 
1. 释放 重组 队列 占用 的 mbuf 


299-306 如 果 连 接 重 组 队列 中 还 有 报 文 段 ， 则 丢弃 它们 。 重 组 队列 用 于 存放 收 到 位 于 接收 
窗口 内 、 但 次 序 差错 的 报 文 段 。 在 等 待 接收 的 正常 序列 报 文 段 到 达 之 前 ， 它 们 会 一 直 保 存在 
重组 队列 中 ; 之 后 ， 报 文 段 被 重组 并 递交 给 应 用 程序 。27.9 布 会 详细 讨论 这 一 过 程 。 

2. 释放 首部 模板 和 TCP 控 制 块 
307-309 调用 m free 释 放 IP 和 和 TCP 首部 模板 ,调用 free 释 放 TCP 控 制 块 ， 调 用 
sodisconnected 发 送 PRU DISCONNECT 请 求 ， 标 记 插 口 已 断 开 连 接 。 

3. 释放 PCB 
310-318 如果 插 口 的 Internet PCB 保 存在 TCP 的 高 速 缓存 中 ， 则 把 TCP 的 PCB 链 表 表 头 赋 给 
tcp last inpcb， 以 清空 缓存 。 接 着 调用 in pcbdetach 释 放 PCB 占 用 的 内 存 。 


27.5 tcp_mss 函 数 


tcp_mss 被 两 个 图 数 调用 : 

1) tcp_output， 准 备 发 送 SYN 时 调用 ， 以 添加 MSS 选 项 ， 

2) tcp_input， 收 到 的 SYN 报 文 段 中 包含 MSS 选 项 时 调用 。 

tcp_mss 畏 数 检查 到 达 目 的 地 的 缓存 路 由 ， 计 算 用 于 该 连接 的 MSS。 

图 27-7 给 出 了 tcp_mss 第 一 部 分 的 代码 ， 如 果 PCB 中 没有 到 达 目 的 地 的 路 由 ， 则 设法 得 
到 所 需 的 路 由 。 


tcp input.c 
1391 int y 


1392 tcp mss(tp, offer) 
1393 struct tcpcb *tp; 
1394 u int offer; 


1395 ( 

1396 struct route *ro; 

1397 struct rtentry *rti 
1398 struct ifnet *ifp; 

1399 int rtt, mss; 

1400 u long | bufsize; 

1401 struct inpcb *inp; 

1402 struct socket *so; 

1403 extern int tcp mssdflt; 
1404 inp = tp-»t inpcb; 

1405 ro - &inp-»inp route; 
1406 lf ((rt = ro-»ro.rt) == (struct rtentry *) 0) ( 


图 27-7 tcp_mss 国 数 : 如 果 PCB 中 设 有 路 由 ， 则 设法 得 到 所 需 路 由 
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/* No route yet, so try to acquire one */ 
if (inp->inp_faddr.s_addr != INADDR_ANY) ( 
ro-»ro dst.sa family = AF INET; 
ro-»ro dst.sa len - sizeof(ro-»ro dst); 
((struct sockaddr in *) &ro-»ro dst)-»sin addr - 
inp-»inp faddr; 
rtallioc (roy? 
} 
if ( (FE = EoO-SEO rt) == (struct rtentry *) 0) 
return (tcp mssdflt); 
) 
ifp = rt-»rt. ifp; 


SO = inp-»inp. socket; : 
tcp input.c 


图 27-7 (f&) 


1. 如 果 需 要 ， 就 获取 路 由 
1391-1417 如 果 插 口 没有 高 速 缓存 路 由 ， 则 调用 rtalloc 得 到 一 条 。 与 外 出 路 由 相关 的 接 
口 指针 存储 在 ifp 中 。 外 出 接口 是 非常 重要 的 ， 因 为 其 MTU 会 影响 TCP 通 告 的 MSS。 如 果 无 
法 得 到 所 需 路 由 ， 函 数 就 立即 返回 默认 值 512 (tcp_mssdf1t)。 

图 27-8 给 出 了 tcp_mss 的 下 一 部 分 代码 ， 判 断 得 到 的 路 由 是 否 有 相应 的 参数 表 。 如 果 有 ， 
则 变量 t rttmin, t srtt 和 t rttvar 将 初始 化 为 参数 表 中 的 对 应 值 。 


e" p» tcp input.c 

1421 * While we're here, check if there's an initial rtt 

1422 * or rttvar. Convert from the route-table units 

1423 * to scaled multiples of the slow timeout timer. 

1424 Ef 

1425 if (tp-»t srtt ss 0 && (rtt = rt-»rt rnmx.rmx rtt)) { 

1426 As 

1427 * XXX the lock bit for RTT indicates that the value 

1428 * is also a minimum value; this is subject to time. 

1429 wf 

1430 if (rt-»rt.rmx.rmx locks & RTV RTT) 

1431 tp-»t rttmin = rtt / (RTM.RTTUNIT / PR.SLOWHZ); 

1432 tp-»t srtt = rtt / (RTM.RTTUNIT / (PR.SLOWHZ * TCP RTT SCALBE)); 

1433 if irt-»rt rmx.rmx rttvatr) 

1434 tp-»t rttvar = rt-»rt rmx.rmx rttvar / 

1435 (RTM RTTUNIT / (PR SLOWHZ * TCP RTTVAR SCALE)); 

1436 else 

1437 /* default variation is +- 1 rtt */ 

1438 tp-s»st rttvar = 

1439 Ltp-»t.srtt * 'TCP RTTVAR SCALE / TCP. RTT SCALE; 

1440 TCPT. RANGESET (tp-»t rxtcur, 

1441 ((Ep-5»5t srtt >> 2) + tp-»t rttvar) >> 1, 

1442 tp-»t rttmin, TCPTV REXMTMAX); 

1443 ) 

tcp input.c 

图 27-8 tcp_mss 国 数 : 判断 路 由 是 否 有 相应 的 RTT 参 数 表 

2. 初始 化 已 平滑 的 RTT 估 计 帮 


1420-1432 如果 连接 上 不 存在 RTT 样 本 值 (t_srtt=0)， 并 且 rmx_rtt 非 零 ， 则 将 后 者 赋 
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给 已 平 请 的 RIT 估 计 绒 t_srtt。 如 果 路 由 参数 表 锁 定 标志 的 RTV_RTT 比 特 置 位 ， 表 明 连 接 
的 最 小 RTT(t_rttmin) 也 应 初始 化 为 rmx_rtt。 前 面 介绍 过 ,tcp newtcpcb 把 
t_rttmin 和 初始 化 为 2 个 滴答 。 

rmx_rtt( 以 微 秒 为 单位 ) 转 换 为 t_srtt( 以 8 个 滴答 为 单位 ), 这 是 图 27-4 的 反 变换 。 注意， 
t_rttmin 和 守 于 t_srtt 的 1/8， 因 为 前 者 没有 除 以 缩放 因子 TCP_RTT SCALE, 

3. 初始 化 已 平滑 的 RTT 平 均 偏差 估计 器 
1433-1439 如 果 存 储 的 rmx_rttvar( 以 微 秒 为 单位 ) 值 非 零 ， 将 其 转换 为 t rttvar (以 4 
个 滴答 为 单位 )。 但 如 果 为 零 ， 则 t_zttvar 等 于 r_Frtt， 即 偏差 等 于 均值 。 已 平 请 的 RTT 平 
均 偏 差 估计 强 上 默认 设置 为 +1 RTT。 由 于 t_rttvar 的 单位 为 4 个 滴答 ， 而 t_rtt 的 单位 为 8 个 
滴答 ，t_srtt 值 也 必须 做 相应 转换 。 

4. 计算 初始 RTO 
1440-1442 计算 当前 的 RTO， 并 存储 在 t_rxtcur 中 ,采用 下 列 算式 更 新 : 

RTO=srtt+2 x rttvar 

计算 第 一 个 RTO 时 ， 乘 数 取 2， 而 非 4， 上 式 与 图 25-21 中 用 到 的 算式 相同 。 将 缩放 关系 代 

人 ， 得 到 : 





E BEER ME - 
= rttvar 
t Srtt t rttvar 一 
RTO = 7 2 a 
2 
即 为 TCPT RANGESET 的 第 二 个 参数 。 
图 27-9 给 出 了 tcp_mss 的 下 一 部 分 ， 计算 MSS。 
tcp_input.c 
1444 /* TC 
1445 * if there's an mtu associated with the route, use it 
1446 *y 
1447 if (rt-»rt rmx.rmx mtu) 
1448 mss - rt-»rt rmx.rmx mtu - sizeof(struct tcpiphdr); 
1449 else { 
1450 mss = ifp-»if mtu - sizeof (struct tcpiphdr); 
1451 #if (MCLBYTES & (MCLBYTES - 1)) == 0 
1452 if (mss » MCLBYTES) 
1453 mss &- ^(MCLBYTES - 1); 
1454 &else 
1455 if (mss » MCLBYTES) 
1456 mss - mss / MCLBYTES * MCLBYTES; 
1457 #endif 
1458 if (!in localaddr(inp-»inp. faddr)) 
1459 mss - min(mss, tcp mssdflt); 
1460 ) E 
tcp input.c 


图 27-9 tcp _ mss 函数 : 计算 mss 


5. 从 路 由 表 中 的 MTU 得 到 MSS 
1444-1450 如果 路 由 表 中 的 MTU 有 值 ， 则 将 其 赋 给 mss。 如 果 没 有 ， 则 mss 初 始 值 等 于 外 
出 接口 的 MTU 值 减 去 40(P 和 TCP 首 部 默认 值 )。 对 于 以 太 网 ，MSS 初 始 值 应 为 1460。 

6. 减 小 MSS， 令 其 等 于 MCLBYTES 的 倍数 
1451-1457 如 果 mss 大 于 MCLBYTES， 则 减 小 mss 的 值 ， 邻 其 等 于 最 接近 的 
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MCLBYTES(mbufj& K/M Á% A] RA MCLBYTES [HE Gl $ ET 1024252048) E5EMCLBYTESÍR 
减 1 逻辑 与 后 等 于 0， B BHJMCLBYTESZET2BJfZ2À, lán, 1024(0x400)258 51023(0x3££) 
等 于 0。 

代码 通过 清 零 ms s 的 若干 低位 比特 ， 将 ms s 减 小 到 最 接近 的 MCLBYTES 的 倍数 : AD 
mbuf 徐 大 小 为 1024，mss 与 1023 的 二 进 制 补 码 (0xfffffc00) 丈 辑 与 ， 低 位 的 10 bithi., 
对 于 以 太 网 ，mss 将 从 1460 减 至 1024。 如 果 mbnuf 钞 大 小 为 2048， 与 2047 的 二 进 制 补 码 
(0xffff8000) 逻 辑 与 ， 低 位 的 11 bit 被 清 零 。 对 于 令 牌 环 ，MTU 大 小 为 4464， 上 述 运 算 将 
mss 从 4424 减 为 40096。 如 果 MCLBYTES 不 是 2 的 倍数 ， 代 码 用 ms ss 整数 除 以 MCLBYTES 后 ， 再 
Je 上 MCLBYTES， 从 而 将 mss 减 小 到 最 接近 的 MCLBYTES 的 倍数 。 

7. 判断 目的 地 是 本 地 地 址 还 是 远 端 地 址 
1458-1459 如 果 目 的 IP 不 是 本 地 地 址 (in _ localaddr 返 回 零 )， 且 mss 大 于 
Sl2(tcp mssdflt)， 则 将 mss 设 为 S12。 


IP 地 址 是 否 为 本 地 地 址 取决 于 全 局 变量 subnetsarelocal， 内 核 编译 时 把 符 
号 变量 SUBNETSARELOCAL 的 值 赋 给 它 。 默 认 值 为 1!， 意 味 着 如 果 给 定 IP 地 址 与 主机 
任 一 接口 的 IP 地 址 具有 相同 的 网 络 ID， 则 被 认为 是 一 个 本 地 地 址 。 如 果 为 0， 则 给 祥 
IP 地 址 必须 与 主机 任 一 接口 的 IP 地 址 具有 相同 的 网 络 号 和 子 网 号 ， 才 会 被 认为 是 一 个 
本 地 地 址 。 

对 于 非 本 地 地 址 ， 将 MSS 最 小 化 是 为 了 避免 IP 数 据 报 经 广域网 时 被 分 片 。 绝 大 多 
数 WAN 链 路 的 MTU 只 有 1006， 这 是 从 ARPANET 赴 留 下 来 的 一 个 问题 。 在 卷 1 的 11.7 
节 中 讨论 过 ， 现 代 的 多 数 WAN 支 持 1500， 甚 至 更 大 的 MTU。 感 兴趣 的 读者 还 可 阅读 
卷 1 的 24.2 节 中 讨论 的 路 由 MTU 发 现 特 性 (RFC 1191, [Mogul and Deering 1990]), 
Net/3 不 支持 路 由 MTU 发 现 。 


图 27-10 给 出 了 tcp_mss 最 后 一 部 分 的 代码 。 

8. 对 端的 MSS 用 作 上 限 
1461-1472 如 果 tcp mss 被 tcp input 调 用 ， 参数 of fer 非 零 ， 等 于 对 端 通告 的 mss 值 。 
如 果 mss 大 于 对 端 通告 的 值 ， 则 将 offezr 赋 给 它 。 例 如 ， 如 果 国 数 计算 得 到 的 mss 等 于 1024， 
但 对 端 通告 的 值 只 有 512， 则 mss 必 须 被 设 定 为 512。 相 反 ， 如 果 mss 等 于 536( 即 输出 MTU 等 
于 5$76)， 而 对 端 通告 的 值 为 1460，TCP 仍 旧 使 用 536。 只 要 不 超过 对 端 通告 的 值 ，mss 可 以 取 
小 于 它 的 任何 一 个 值 。 如 果 tcp_mss 被 tcp_output 调 用 ，offer 等 于 0， 用 于 发 送 MSS 选 
项 。 注意 ， 尽 管 mss 的 上 限 可 变 ， 其 下 限 固 定 为 32。 
1473-1483 如 果 mss 小 于 tcp _ newtcpcb 中 设 定 的 默认 值 t maxseg(512), 或 者 如 果 TCP 下 
在 处 理 收 到 的 MSS 选 项 (of fer 非 零 )， 则 需 执 行 下 列 步骤 。 首 先 ， 如 果 路 由 的 rmx_sendpipe 
有 值 ， 则 采用 它 作为 发 送 缓存 的 高 端 (high-water) 标 志 ( 图 16-4)。 如 果 缓 存 小 于 mss， 则 使 用 较 
小 的 值 。 除 非 是 应 用 程序 有 意 把 发 送 缓存 定 得 很 小 ， 或 者 管理 员 将 xmx_sendpipe 定 得 很 小 ， 
这 种 情况 一 般 不 会 发 生 ， 因 为 发 送 缓存 的 上 限 默认 值 为 8192， 大 于 绝 大 多 数 的 mss。 

9. 增加 缓存 大 小 ， 令 其 等 于 最 近 的 MSS 整 数 倍 
1484-1489 增加 缓存 大 小 ， 令 其 等 于 最 近 的 mss 整 数 倍 ， 上 限 为 sb_max(Net/3 中 定义 为 
262 144 ， 即 256 x 1024)。 插 口 发 送 缓存 的 上 限 设 定 为 sbreserve。 例 如 ， 上 限 默认 值 等 于 
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8192， 但 对 于 以 太 网 上 的 本 地 TCP 传 输 ， 其 mbuf 族 大 小 为 2048( 假 定 mss 等 于 1460)， 代 码 把 上 
限 值 增加 到 8760( 等 于 6 x 1460)。. 但 对 于 非 本 地 的 连接 ，mss 等 于 512， 上 限 值 保 持 8192 不 变 。 


1461 
1462 
1463 
1464 
1465 
1466 
1467 
1468 
1469 
1470 
1471 
1472 
1473 
1474 
1475 
1476 
1477 
1478 
1479 
1480 
1481 
1482 
1483 
1484 
1485 
1486 
1487 
1488 
1489 
1490 


1491 
1492 
1493 
1494 
1495 
1496 
1497 
1498 
1499 
1500 
1501 
1502 
1503 
1504 
1505 
1506 
1507 
1508 
1509 
1510 
1511 } 
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mss 
if 


tcp input.c 


The current mss, t maxseg, was initialized to the default value 
of 512 (tcp mssdflt) by tcp newtcpcb(). 

If we compute a smaller value, reduce the current mss. 

If we compute a larger value, return it for use in sending 

a max seg size option, but don't store it for use 

unless we received an offer at least that large from peer. 
However, do not accept offers under 32 bytes. 


wf 

if (offer) 
mss = min(mss, offer); 
= max(mss, 32); /* sanity */ 
(mss < tp-»t maxseg || offer !2 0) ( 
/* 


* If there's a pipesize, change the socket buffer 
* to that size. Make the socket buffers an integral 
* number of mss units; if the mss is larger than 
* the socket buffer, decrease the mss. 
a i 
if ((bufsize = rt-»rt rmx.rmx sendpipe) == O0) 
bufsize = so-»so. snd.sb hiwat; 
if (bufsize « mss) 
mss - bufsize; 
else ( 
bufsize - roundup(bufsize, mss); 
if (bufsize > sb, max) 
bufsize = sb max; 
(void) sbreserve(&so-»so snd, bufsize); 
) 
tp-»t, maxseg = mss; 


if ((bufsize - rt-»rt rmx.rmx recvpipe) -- O0) 
bufsize - so-»so rcv.sb hiwat; 
if (bufsize » mss) ( 
bufsize - roundup(bufsize, mss); 
if (bufsize > sb max) 
bufsize - sb max; 
(void) sbreserve(&so-»so rcv, bufsize); 
) 


tp-»snd cwnd - mss; 
if 


(rt-»rt rmx.rmx ssthresh) ( 
/* 
* There's some sort of gateway or interface 
* buffer limit on the path. Use this to set 
* the slow start threshhold, but set the 
* threshold to no less than 2*mss. 
* jJ 
tp-»sndà ssthresh = max(2 * mss, rt-»rt rmx.rmx ssthresh); 


return (mss); 


tcp. input.c 
图 27-10 tcp _ mss 畏 数 : 结束 处 理 


1490 由 于 t_maxseg 已 小 于 默认 值 (512)， 或 者 由 于 收 到 了 对 端 发 送 的 MSS 选 项 ， 所 以 应 更 
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新 它 。 
1491-1499 对 接收 缓存 的 处 理 与 发 送 缓存 相同 。 

10. 初始 化 拥塞 窗口 和 慢 起 动 门限 
1500-1509 拥塞 窗口 的 值 ，sna_cwnd， 等 于 一 个 最 大 报 文 段 长 度 。 如 果 路 由 表 中 的 
rmx_ssthresh 非 堆 ， 慢 起 动 门限 (snda_ssthzresh) 初 始 化 为 该 值 ， 但 应 保证 其 下 限 为 两 个 
最 大 报 文 段 长 度 。 

1510 图 数 最 后 返回 mss。tcp_input 忽 略 这 一 返回 值 (图 28-10， 因 为 它 已 收 到 对 端的 MSS 
选项 )， 但 图 26-23 中 ,tcp_output 将 它 用 作 MSS 通 告 。 
举例 

下 面 通过 一 个 连接 建立 的 实例 说 明 tcp_mss 的 操作 过 程 。 连 接 建 立 过 程 中 ， 它 会 被 调用 
两 次 : 发 送 SYN 时 和 收 到 对 端 带 有 MSS 选 项 的 SYN 时 。 

1) 创建 插口 ，tcp_newtcpcb 初 始 化 t maxseg 为 512。 

2) 应 用 进程 调用 connect。 为 了 在 SYN 报 文 段 中 加 入 MSS 选 项 ，tcp_output 调 用 
tcp_mss， 参 数 offer 等 于 零 。 假 定 目的 卫 为 本 地 以 太 网 地 址 ，mbnuf 徐 大 小 为 2048 ， 执 行 图 
27-9 中 的 代码 后 ，mss 等 于 1460。 由 于 offer 等 于 零 ， 图 27-10 中 的 代码 不 修改 mss 值 ， 函 数 
返回 1460。 因 为 1460 大 于 默认 值 (512) 而 且 未 收 到 对 端的 MSS 选 项 ,缓存 大 小 不 变 。 
tcp output k iž MSSM, uS MSS /h 291460, 

3) 对 端 发 送 啊 应 SYN， 通 告 mss 大 小 为 1024。tcp_input 调 用 cp mss, Z2 Aoffer 
等 于 1024。 图 27-9 的 代码 逻辑 仍旧 设 定 mss 为 1460, 但 在 图 27-10 起 始 处 的 min 语 句 将 mss 减 
小 为 1024。 因 为 of fer 非 零 ， 缓 存 大 小 增加 至 最 近 的 1024 的 整数 倍 ( 等 于 8192)。t_maxseg 
更 新 为 1024。 


初 看 上 去 ，tcp_mss 的 逻辑 存在 问题 ,TCP 向 对 应 通告 mss 大 小 为 1460， 之 后 从 
对 痛 收 到 的 mss 只 有 1024。 尽 管 TCP 只 能 发 送 1024 字 节 的 报 文 段 ， 对 痛 却 能 够 发 送 
1460 字 节 的 报 文 段 。 读 者 可 能 会 认为 发 送 缓存 应 等 于 1024 的 倍数 ， 而 接收 缓存 则 应 
等 于 1460 的 倍数 。 但 图 27-10 中 的 代码 却 将 两 个 缓存 大 小 都 设 为 对 端 通告 的 mss 的 信 
数 。 这 是 因为 尽管 TCP 通 告 mss 为 1460， 但 对 痛 通 告 的 mss 仅 为 1024， 对 端 有 可 能 不 
会 发 送 1460 字 节 的 报 文 段 ， 而 将 发 送 报 文 段 限制 为 1024 字 节 。 


27.6 tcp ctlinput Ağ 


回想 图 22-32 中 ，tcp_ct1input 处 理 5 种 类 型 的 ICMP 差 错 : 目的 地 不 可 达 、 数 据 报 参 数 
错 、 源 站 抑制 、 数 据 报 超时 和 重 定 同 。 所 有 重 定 癌 差错 会 上 交 给 相应 的 TCP 或 UDP 进行 处 理 。 

对 于 其 他 4 种 差错 ， 仅 当 它 们 是 被 TCP 报 文 段 引发 的 ， 才 会 调用 tcp_ct1linput 进 行 
处 理 。 

图 27-11 给 出 了 tcp_ctlinput 国 数 ， 它 与 图 23-30 的 udap_ct1lLinput 国 数 类 似 。 
365-366 在 逻辑 上 , tcp _ctlinput 与 udp _ctlinput 的 唯一 区 别 是 如 何 处 理 ICMP 源 站 
抑制 差错 。 因 为 jnetctlerrmap 等 于 0，UDP 和 忽略 源 站 抑制 差错 。TCP 检 查 源 站 抑制 差错 ， 
并 把 notify 畏 数 的 默认 值 tcp notifyik/7gtcp quench, 
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— tcp subr.c 
356 tcp ctlinput(cmd, sa, ip) 

357 int cmd; 

358 struct sockaddr *sa; 

359 struct ip *ip; 

360 ( 

361 struct tcphdr *th; 

362 extern struct in addr zeroin, addr; 

363 extern u_char inetctlerrmap[[]; 

364 void (*^notify) (strüct inpcb *, ibt) = tep notify: 

365 lf (cma == PRC.QUENCH) 

366 notify - tcp quench; 

367 else if (!PRC IS REDIRECT(cmd) && 

368 ((unsigned) cmd > PRC NCMDS || inetctlerrmap[cmd] == 0)) 
369 return; 

370 i£ (ip) t 

371 th = (struct tcphdr *) ((eaddr t) ip + (ip-»ip hl << 2)); 

372 in pcbnotify(&tcb, sa, th-»th dport, ip-»ip src, th-»th, sport, 
373 cmd, notify); 

374 ) else 

375 in pcbnotify(&tcb, sa, 0, zeroin addr, 0, cmd, notify); 

Eu tcp subr.c 


图 27-11 tcp ctlinput K% 


27.7 tcp notifygg Zi 


tcp_notify 被 tcp_ct1linput 调 用 ， 处 理 目的 地 不 可 达 、 数 据 报 参数 错 、 数 据 报 超时 
和 重 定向 差错 。 与 UDP 的 差错 处 理沙 数 相 比 ， 它 要 复杂 得 多 ， 因 为 TCP 必 须 灵活 地 处 理 连 接 
上 收 到 的 各 种 软 差 错 。 图 27-12 给 出 了 tcp_motify 函 数 。 


tcp subr.c 
328 void "Pes 


329 tcp notify(inp, error) 
330 struct inpceb *inp; 


341 dint error; 

332 t 

333 struct tcpcb *tp = (struct tcpcb *) inp-»inp.ppcb; 

334 struct socket *so = inp-»inp. socket; 

335 in 

336 * Ignore some errors if we are hooked up. 

337 * If connection hasn't completed, has retransmitted several times, 
338 * and receives a second error, give up now. This is better 

339 * than waiting a long time to establish a connection that 

340 * can never conplete. 

341 "r 

342 if (tp-»t state -- TCPS ESTABLISHED && 

343 (error == EHOSTUNREACE || error == ENETUNRFEACH || 

344 error == EHOSTDOWN)) { 

345 return; 

346 } else if (tp-»t state < TCPS ESTABLISHED && tp-»t rxtshift > 3 kk 
347 tp-»t softerror) 

348 SO-»SO error = error; 


图 27-12 tcp notifytr&A 
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349 else 

350 tp-»t softerror = error; 

351 wakeup((caddr t) & so-»so timeo); 
352 sorwakeup (so); 

353 sowwakeup (so); 

354 } 


tcp subr.c 
图 27-12 (5) 


328-345 如 果 连 接 状 态 为 ESTABLISHED， 则 忽略 EHOSTUNREACH、ENETUNREACH 和 和 
EHOSTDOWN 差 错 代 码 。 


处 理 这 3 个 差错 是 4.4BSD 中 新 增 的 功能 。Net/2 及 早期 版 本 在 连接 的 软 差错 变量 
(上 _Ssofterror) 中 记录 这 些 差错 ， 如 果 连 接 最 终 失 败 ， 则 向 应 用 进程 返回 相应 的 差 
错 码 。 回 想 一 下 ，tcp_xmit_timer 在 收 到 一 个 ACK， 确 认 未 发 送 过 的 报 文 段 时 ， 
复位 t softerrorJj f, 


346-353 如果 连 接 还 未 建立 ， 而 且 TCP 已 经 至 少 4 次 重 传 了 当前 报 文 段 ，t_softerror 中 
已 存在 差错 记录 ， 则 最 新 的 差错 将 被 保存 在 插口 的 so_error 变 量 中 ， 从 而 应 用 进程 可 以 调 
用 select 对 插口 进行 读 写 。 如 果 上 述 条 件 不 满足 ， 当 前 差错 将 仍旧 保存 在 t_softerror 中 。 
我 们 在 tcp_adrop 函 数 中 讨论 过 ， 如 果 连 接 最 终 由 于 超时 而 被 丢弃 ，tcp_drop 会 把 
t_softerror 赋 给 插口 差错 变量 errno。 任 何在 插口 上 等 待 接 收 或 发 送 数 据 的 应 用 进程 会 
被 唤醒 ， 并 得 到 相应 的 差错 代码 。 


27.8 tcp_quench Až 
tcp_quench 的 函数 代码 在 图 27-13 中 给 出 。TCP 在 两 种 情况 下 调用 它 : 当 连 接 上 收 到 源 


站 抑制 差错 时 ， 由 上 tcp_input 调 用 。 当 ip_output 返 回 BNOBUEFS 差 错 代 码 时 ， 由 
tp_output 调 用 。 


381 void i 
382 tcp quench(inp, errno) 
383 struct inpcb *inp: 
384 int errno; 
385 ( 
386 struet tepeb *tp = intotcpebiülnp); 
387 if (Ep) 
388 tp-»snd cwnd = tp-»t maxseg; 
389 ) 
tcp. subr.c 


图 27-13 tcp quench% 


拥塞 窗口 设 定 为 最 大 报 文 段 长 度 ， 强 迫 TCP 执 行 慢 起 动 。 慢 起 动 门限 不 变 ( 与 
tcp_timers 处 理 重 传 超时 的 思想 相同 )， 因 此 ， 窗 口 大 小 将 成 指数 地 增加 ， 直 至 达到 
snd_ssthresh 门 限 或 发 生 拥 塞 。 


27.9 TCP RERASS 宏 和 tcpP reass 函 数 


TCP 报 文 段 有 可 能 乱 序 到 达 ， 因 此 ， 在 数据 上 交 给 应 用 进程 之 前 ，TCP 必 须 设法 恢复 正确 
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的 报 文 段 次 序 。 例 如 ， 如 果 接 收 方 的 接收 窗口 mbuf {} 
大 小 为 4096， 等 待 接收 的 下 一 个 序号 为 0。 收 
到 的 第 一 个 报 文 段 携带 0 ~ 1023 字 市 的 数据 (次 
序 正确 )， 第 二 个 报 文 段 携带 了 2048 ~ 3071 字 


节 的 数据 ， 很 明显 ， 第 二 个 报 文 段 到 达 的 次 序 Gpe 

差错 。 如 果 乱 序 报 文 段位 于 接收 窗口 内 ，TCP se 
ER | 

并 不 丢弃 它 ， 而 是 将 其 保存 在 连接 的 重组 队列 = 


中 ， 继 续 等 待 中 间 缺 失 的 报 文 段 (携带 1024 ~ 16:735 e FB) 
2047 字 市 的 报 文 段 )。 这 一 市 我 们 将 讨论 处 理 
TCP 重 组 队列 的 代码 ， 为 后 两 章 讨 论 tcp_ 
input 打 下 基础 。 

如 宁 假 定 某 个 mbuf 中 包含 IP 首 部 、TCP 首 
部 和 4 字 市 的 用 户 数据 (回想 图 2-14 的 左 半 部 


ipovly() 
(20*€ 5) 


i spor i. dpor 
分 )， 如 图 27-14 所 示 。 此 外 还 假定 数据 的 序号 EE 


依次 为 7、8、9 和 10。 


tcphdrí() 
(207€) 
图 24-12 中 定义 的 tcpiphdr 结 构 里 包含 


了 ipovly 和 tcphdr 两 个 结构 ，tcphdr 结 构 4 字 节 数据 
在 图 24-12 中 给 出 。 图 27-14 只 列 出 了 与 重组 有 
关 的 一 些 变 量 ; ti next, ti prev, 
ti len, ti dport 和 ti sedqd。 头 两 个 指 
针 指 向 由 给 定 连接 所 有 乱 序 报 文 段 组 成 的 双 癌 
链表 。 链 表 头 保存 在 连接 的 TCP 控 制 块 中 : 结 
构 的 头 两 个 成 员 变量 为 seg next 和 图 27-14 举例 : 带 有 4 字 节 数据 的 了 和 TCP 首 部 
seg_prev。ti_next 和 ti_pzrev 指 针 与 首部 的 头 8 个 字 届 重复， 只 要 数据 报到 达 了 TCP， 
就 不 再 需要 这 些 内 容 。ti_len 等 于 TCP 数 据 的 长 度 ，TCP 计 算 检 验 和 之 前 首先 计算 并 存储 这 
个 字段 。 





27.9.1] TCP REASSZ 


tcp_input 收 到 数据 后 ， 就 调用 图 27-15 中 的 宏 TCP_REASS， 把 数据 放 入 连接 的 重组 队 
列 。TCP_REASS 只 在 一 种 情况 下 被 调用 参见 图 29-22。 
54-63 tp 是 指向 连接 TCP 控 制 块 的 指针 ，ti 是 指 问 接收 报 文 段 的 Lcpiphdr 结 构 的 指针 。 
如 果 下 列 3 个 条 件 均 为 真 : 

1) 报 文 段 到 达 次 序 正确 (序号 ti_seq 等 于 连接 上 等 待 接收 的 下 一 序号 ，rcv_nxt); 

2) 连接 的 重组 队列 为 空 (seg_next 指 向 自己 ， 而 不 是 某 个 mbu?f)，; 

3) 连接 处 于 ESTABLISHED 状 态 。 
则 执行 下 列 步 又: 设 定 延 迟 ACK 标 志 ， 更 新 fcv_nxt， 增 加 报 文 段 携带 的 数据 长 度 ， 如 果 报 
文 段 TCP 首 部 中 FIN 标 志 置 位 ， 则 £1ags 参 数 中 增加 TH_FIN 标 志 ; 更 新 两 个 统计 值 ， 数 据 放 
入 插口 的 接收 缓存 ， 唤 醒 所 有 在 插口 上 等 待 接 收 的 应 用 进程 。 
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; : tcp input.c 
53 define TCP REASS(tp, ti, m, so, flags) ( \ 
54 if ((ti)-»ti.seqd == (tp)-»rcv nxe && \ 
55 (tp)-»seg next == (struct tcpiphdr *)(tp) && \ 
56 (tp)-»t state == TCPS ESTABLISHED) { \ 
57 tp-»t flags |» TF. DELACK; \ 
58 (tp)-»rcv nxt += (ti)-»ti len; \ 
59 flags = (ti)-»ti flags & TH FIN; \ 
60 tcpstat.tcps  rcvpacks-«; \ 
61 tcpstat.tcps rcvbyte += (ti)-»ti len; \ 
62 sbappend(&(so)-»so rcv, (m)); \ 
63 sorwakeup(so); \ 
64 ) else ( \ 
65 (flags) = tép.reass((tp), (tij, (m))s y 
66 tp-»t flags |= TF. ACKNOW; \ 
67 ) X 
68 ) j 

tcp. input.c 


图 27-15 TCP REASSZ:: 向 连接 的 重组 队列 中 添加 数据 


必须 满足 前 述 3 个 条 件 的 原因 是 : 第 一 ， 如 果 数 据 次 序 差 错 ， 则 必须 将 其 放 入 重组 队列 ， 

直至 收 到 了 中 间 缺 失 的 报 文 段 ， 才 能 把 数据 提交 给 应 用 进程 。 第 二 ， 即 使 当前 数据 到 达 次 序 
正确 ， 但 如 果 重 组 队列 中 已 存在 乱 序数 据 ， 则 新 的 数据 有 可 能 就 是 所 需 的 缺失 数据 ， 从 而 能 
够 向 应 用 进程 同时 提交 多 个 报 文 段 中 的 数据 第 三 ， 尽 管 允 许 请 求 建立 连接 的 SYN 报 文 段 中 
携带 数据 ， 但 这 些 数据 在 连接 进入 ESTABLISHED 状 态 之 前 ， 必 须 保存 在 重组 队列 中 ， 不 人 允许 
直接 提交 给 应 用 进程 。 
64-67 如 果 这 3 个 条 件 不 是 同时 满足 ， 则 TCP_RERASS 宏 调用 TCP_RERASS 畏 数 ， 回 重组 队列 
中 添加 数据 。 由 于 收 到 的 报 文 段 如 果 不 是 乱 序 报 文 段 ， 就 有 可 能 是 所 需 的 缺失 报 文 段 ， 因 此 ， 
置 位 TF_ACKNOW， 要 求 立 即 发 送 ACK。TCP 的 一 个 重要 特性 是 收 到 乱 序 报 文 段 时 ， 必 须 立 即 
发 送 ACK， 这 有 助 于 快速 重 传 算法 (29.4 市 ) 的 实现 。 

在 讨论 TCP_REASS 函 数 代码 之 前 ， 需 要 先 了 解 图 27-14 中 TCP 首 部 的 两 个 端口 号 ， 
ti sportfllti _dport， 所 起 的 作用 。 其 实 ， 只 要 找到 了 TCP 控 制 块 并 调用 了 TCP_REASS， 
就 不 再 需要 它们 了 。 因 此 ，TCP 报 文 段 放 入 重组 队列 时 ， 可 以 把 对 应 mbuf 的 地 址 存储 在 这 两 
个 端口 号 变量 中 。 对 于 图 27-14 中 的 报 文 段 ， 不 需要 这 样 做 ， 因 为 IP 和 TCP 的 首部 都 存储 在 
mbuf 的 数据 部 分 ， 可 直接 使 用 dtom 宏 。 但 我 们 在 2.6 市 讨论 m_pullup 时 曾 指出 ， 如 采 IP 和 
TCP 的 首部 保存 在 徐 中 (如 图 2-16 所 示 ， 对 于 最 大 长 度 报 文 这 是 很 正常 的 )，dtom 宏 将 无 法 使 
用 。 我 们 在 该 节 中 曾 提 到 ，TCP 把 从 TCP 首 部 指向 mbuf 的 后 向 指针 (back pointer) 存 储 在 TCP 的 
两 个 端口 号 字段 中 。 

图 27-16 举 例 说 明了 这 一 技术 的 用 法 ， 利 用 它 处 理 连接 上 的 两 个 乱 序 报 文 段 ， 每 个 报 文 段 
都 存储 在 一 个 mbuf 徐 中 。 乱 序 报 文 段 双向 链表 的 表 头 是 连接 的 TCP 控 制 块 中 的 seg_next 成 
员 变 量 。 为 简化 起 见 ， 图 中 未 标 出 seg_prev 指 针 和 指向 链表 最 后 一 个 报 文 段 的 ti_next 
指针 。 

接收 窗口 等 待 接收 的 下 一 个 序号 为 1(rcv_nxt)， 但 我 们 假定 这 个 报 文 段 丢失 了 。 接 着 又 
收 到 了 两 个 报 文 段 ， 携 带 1461~4380 字 节 的 数据 ， 这 是 两 个 乱 序 报 文 段 。TCP 调 用 m_qaevget 
把 它们 放 和 mbuf 复 中 ， 如 图 2-16 所 示 。 
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tcpcb() mbuf() mbuf() 
m next NULL NULL 
NULL NULL 

























m len 1500 m len 1500 
MT. DATA MT. DATA 
m pkthdr.len 1500 m pkthdr.len 1500 
m pkthdr.rcvif |ptr m pkthdr.rcvif |ptr 
[rev nxt — ^ ]|1 
[m ext.ext free |NULL m ext.ext free |NULL 
2048 m ext.ext size |2048 
dE ， 
2048375 $& 2048F 75 $& 
ti prev "TERES 
| [tilen |1460 [ T [Re ue) 
pd Dm) cam 
后 向 指针 后 问 指 针 
ti seq 1461 | ti seq  |2921 
E i 
Lm cogo] 
1460 字 节 数 据 1460 字 节 数 据 


548 字 市 ( 未 用 ) 


548 字 节 ( 未 用 ) 





图 27-16 两 个 乱 序 TCP 报 文 段 存 储 在 mbuf 簇 中 


TCP 首 部 的 头 32 bit 存 储 指 癌 对 应 mbuf 的 指针 ， 下 面 介绍 的 TCP_RERSS 国 数 将 用 到 这 个 
后 四 指针 。 


27.9.2 TCP RERASS 函 数 


图 27-17 给 出 了 TCP_RERSS 图 数 的 第 一 部 分 。 参 数 包括 : tp， 指 向 TCP 控 制 块 的 指针 ， 
ti， 指 向 接收 报 文 段 IP 和 TCP 首 部 的 指针 ; m， 指 向 存储 接收 报 文 段 的 mbuf 链 表 的 指针 。 前 
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面 甸 提 到 过 ，ti 既 可 以 指向 由 m 所 指向 的 mbuf 的 数据 区 ， 也 可 以 指向 一 个 簇 。 


69 int 


70 tcp reass(tp, ti, m) 
7l struct tcpcb *tp; 

72 struct tcpiphdr *ti; 
73 struct mbuf *m; 


69-83 


struct tcpipbdr *q; 
struct socket *so - tp-»t inpcb-»inp socket; 
int flags; 


/* 
* Call with ti--0 after become established to 
* force pre-ESTABLISHED data up to user socket. 
wf 
if (ti == 0) 
goto present; 


/* 
* Find a segment that begins after this one does. 


for (q s tp-»seg next; q ls (struct tcpiphdr *) tp; 
q = (struct tepiphdr *) q-sti,. next) 
if (SEQ GT(q-»ti seq, ti-»ti seq)) 
break; 


图 27-17 TCP REASSERAE: 第 一 部 分 


tcp input.c 


tcp input.c 


后 面 将 看 到 ，TCP 收 到 一 个 对 SYN 的 确认 时 ，tcp_input 将 调用 TCP_REASS, 并 


传递 一 个 空 的 ti 指针 (图 28-20 和 图 29-2)。 这 意味 着 连接 已 建立 ， 可 以 把 SYN 报 文 段 中 携带 的 
数据 (TCP_REASS 已 将 其 放 入 重组 队列 ) 提 交 给 应 用 程序 。 连 接 未 建立 之 前 ， 不 允许 这 样 做 。 
标志 “present” 位 于 图 27-23 中 ， 


84-90 


(ti_seg) 的 第 一 个 报 文 段 。 注 意 ，fozr 循 环 体 中 只 包含 一 个 if 语句 。 

图 27-18 的 例子 中 ， 新 报 文 段 到 达 时 重组 队列 中 已 有 两 个 报 文 段 。 图 中 标 出 了 指针 g， 指 
器 链表 的 下 一 个 报 文 段 ， 带 有 字 节 10~15。 此 外 ， 图 中 还 标 出 了 两 个 指针 ti_next 和 
ti_prev， 起 始 序 号 (ti_seq)、 长 度 (ti_len) 和 数据 字 节 的 序号 。 由 于 这 些 报 文 段 较 小 ， 
每 个 报 文 段 很 可 能 存储 在 单一 的 mbuf 中 ， 如 图 27-14 所 示 。 







ti lenz5 


ti ti seq-4 | 





ti lenz4 





图 27-18 存储 重复 报 文 段 的 重组 队列 举例 


RS m 
esee [sse | e $e [v] jog" 
| 


| 


ti seq - 10 


遍历 从 seg_next 开 始 的 乱 序 报 文 段 双向 链表 ， 寻 找 序号 大 于 接收 报 文 段 序号 


ee [eire | 7 | 5 [ 5 [30] ) 新 扫 广 了 
q bi puqey | ti len=6 


Es 
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图 27-19 给 出 了 TCP_REASS 下 一 部 分 的 代码 


2 "s Icp. input.c 

92 * If there is a preceding segment, it may provide some of 

93 * our data already. If so, drop the data from the incoming 

94 * segment. If it provides all of our data, drop us. 

95 ey 

96 if (listruct tcpiphdr *) q-»ti, prev t= (Struck tepiphdr *) tp) 4 

97 int l; 

98 q = (struct tcpiphdr *) g-5ti. prev; 

99 /* conversion to int (in i) handles seq wraparound */ 

100 i = q-»ti seq + q-»ti len - ti-»ti. seq; 

101 it (ài > 0) t 

102 if (1 >= tr=>ti len) { 

103 tcpstat.tcps_rcvduppack++; 

104 tcpstat.tcps rcvdupbyte += ti-»ti len; 

105 m freem(m); 

106 return (0); 

107 ) 

108 m.adjim,; 1); 

109 ti-»ti lén == 1i; 

110 ti-»ti seq += i; 

1104 ) 

114 q s (struct topiphdr *) (qg-»ti next); 

1413 ) 

114 tcpstat.tcps rcvoopack--*; 

115 tcpstat.tcps rcvoobyte += ti-»ti len; 

116 REASS MBUF(ti) = m; I" XXX EY f 
tcp input.c 


图 27-19 TCP REASSIQTE: 第 二 部 分 


91-107 ”如 果 双 向 链表 中 a 指向 的 报 文 段 前 还 存在 报 文 段 ， 则 该 报 文 段 有 可 能 与 新 报 文 段 重 
复 ， 因 此 ， 挪 动 指针 g， 令 其 指向 g 的 前 一 个 报 文 段 (图 27-18 中 携带 字 节 4~8 的 报 文 段 )， 计 算 
重复 的 字 市 数 ， 并 存储 在 变量 i 中 
i s q-»ti seq + g-sti len = ti-»ti seg; 
= 4 F5 =] 
= 2 


如 果 i 大 于 0， 则 链表 中 原 有 报 文 段 与 新 报 文 段 携带 的 数据 间 存 在 重复 ， 如 例子 中 给 出 的 
报 文 段 。 如 果 重 复 的 字 节 数 (i) 大 于 或 等 于 新 报 文 段 的 大 小 ， 即 新 报 文 段 中 所 有 的 数据 都 已 包 
含 在 原 有 报 文 段 中 ， 新 报 文 段 是 重复 报 文 段 ， 应 予以 丢弃 。 
108-112 如 果 只 有 部 分 数据 重复 (如 图 27-18 所 示 )，m_adj 备 弃 新 报 文 段 起 始 i 字 市 的 数据 ， 
并 相应 更 新 新 报 文 段 的 序号 和 长 度 。 挪 动 q 指 针 ， 指 向 链表 中 的 下 一 个 报 文 段 。 图 27-20 给 出 
了 图 27-18 中 各 报 文 段 和 变量 此 时 的 状态 。 
116 mbuf 的 地 址 m 存 储 在 TCP 首 部 的 源 端口 号 和 目的 端口 号 中 ， 也 就 是 我 们 在 本 市 前 面 曾 提 
到 的 后 向 指针 ， 防 止 TCP 首 部 被 存放 在 mbuf 徐 中 ， 而 无 法 使 用 atom 宏 。 宏 RERASS_MBUF 定 

#define REASS MBUF(ti) (*(struct mbuf **)&((ti)-»ti t)) 

ti_t 是 一 个 tcphar 结 构 ( 图 24-12)， 最 初 的 两 个 成 员 变量 是 两 个 16bit 的 端口 号 。 请 注意 
图 27-19 中 的 注释 “XXX”， 其 中 隐 含 了 这 样 一 个 假定 ， 指 针 能 够 存放 在 两 个 端口 号 占用 的 32 
bit 空 间 中 。 
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图 27-20 删除 新 报 文 段 中 的 字 节 7 和 8 后 ， 更 新 图 27-18 


图 27-21 给 出 了 tcp reass 的 第 三 部 分 ， 删 除 重 组 队列 下 一 报 文 段 中 可 能 的 重复 字 节 。 
117-135 如 果 还 有 后 续 报 文 段 ， 则 计算 新 报 文 段 与 下 一 报 文 段 间 重 复 的 字 节 数 ， 并 存储 在 
变量 i 中 。 还 是 以 图 27-18 中 的 报 文 段 为 例 ， 得 到 : 


9 42 IQ 
I 


因为 序号 10 的 字 节 同时 存在 于 两 个 报 文 段 中 。 

根据 i 值 的 大 小 ， 有 可 能 出 现 3 种 情况 : 

1) 如 果 i 小 于 等 于 0， 无 重复 。 

2) 如 果 i 小 于 下 一 报 文 段 的 字 节 数 (G- >ti_len)， 则 有 部 分 重复 ， 调 用 m_adj ， 从 该 报 
文 段 中 丢弃 起 始 的 i 字 节 。 

3) 如 果 1i 大 于 等 于 下 一 报 文 段 的 字 节 数 ， 则 出 现 完 全 重复 ， 从 链表 中 删除 该 报 文 段 。 
136-139 代码 最 后 调用 insque， 把 新 报 文 段 插入 连接 的 重组 双向 链表 中 。 图 27-22 给 出 了 
图 27-18 中 各 报 文 段 和 变量 此 时 的 状态 。 


i 


TT e tcp input.c 
118 * While we overlap succeeding segments trim them or, 
119 * if they are completely covered, dequeue them. 

120 £7 

1237 while (q !- (struct tcpiphdr *) tp) { 

122 int i = (ti-»ti seq + ti-»ti len) - q-»ti. seq; 
123 if (i <= 0) 

124 break; 

125 if (i < q-»til len) (1 

126 q-»ti.seq += i; 

127 q-»ti len -= i; 

128 m adj (REASS MBUF(q), i); 

129 break; 

130 ) 

131 q = (struct tcpiphdr *) q-»ti. next; 

132 m - REASS MBUF((struct tcpiphdr *) q-»ti. prev); 
133 remque (q-»ti. prev); 


图 27-21 TCP_REASS 函 数 : 第 三 部 分 
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m freem(m); 


/* 
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* Stick new segment in its place. 


xij 


insque(ti, 


q-»ti. prev); 


图 27-21 (£x) 


ti len-5 


vea cube nan ORE io "m 
xeu «[sTe[z[s | } 中 的 
| 


ti Bed cd Iti len-2 
aee Tee | 5 [99] anea 

| 

ti seqz9 | 


ti lena5 


cp input.c 
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图 27-22 丢弃 所 有 重复 字 节 后 ， 更 新 图 27-20 
图 27-23 给 出 了 tcp_reass 最 后 一 部 分 的 代码 ， 如 果 可 能 ， 向 应 用 进程 递交 数据 。 


tcp input.c 
present: 
/* 
* Present data to user, advancing rcv nxt through 
* completed sequence space. 
sy 
if (TCPS_HAVERCVDSYN (tp->t_state) == 0) 
return (0); 
ti = tp->seg_next; 
if (ti s2 (strüct tcpiphdr *) tp |] ti-5ti seq f= CE) 
return (0); 
if (tp-»t state == TCPS SYN RECEIVED && ti-»ti len) 
return (0); 
do ( 
tp-»rcv nxt += ti-»ti len; 
flags = ti-»ti flags & TH FIN; 
remque (ti); 
m = REASS MBUF(ti); 
ti = (strüct teépiphdr *) ti-5ti.next; 
if (so-»so state & SS CANTRCVMORE) 
m freem(m); 
else 
sbappend(&so-»so rcv, m); 
) while (ti !- (struct tcpiphdr *) tp && ti-»ti seq == tp-»rcv nxt); 
sorwakeup(so); 
return (flags); 
tcp input.c 


图 27-23 tcp reass 国 数 : 第 四 部 分 
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145-146 如 来 连 氨 还 没有 收 到 SYN( 连 接 处 于 LISTEN 状 态 或 SYN_SENT 状 态 )， 不 允许 向 应 
用 进程 提交 数据 ， 函 数 返 回 。 当 函数 被 宏 TCP REASS 调 用 时 ， 返 回 值 0 被 赋 给 宏 的 参数 
fl1ags。 这 种 做 法 带 来 的 副作用 是 可 能 会 清除 FIN 标 志 。 当 宏 TCP_REASS 被 图 29-22 的 代码 调 
用 时 ， 如 来 接收 报 文 段 包 含 了 SYN、FIN 和 数据 (尽管 不 常见， 但 却 是 有 效 的 报 文 段 )， 会 出 现 
这 种 情况 。 
147-149 ti 设 定 为 链表 的 第 一 个 报 文 段 。 如 果 链 表 为 空 ， 或 者 第 一 个 报 文 段 的 起 始 序号 
(ti->ti_seq) 不 等 于 连接 等 待 接收 的 下 一 序号 (rcv_nxt)， 则 函数 返回 0。 如 果 第 二 个 条 件 
为 真 ， 说 明 在 等 待 接收 的 下 一 序号 与 已 收 到 的 数据 之 间 仍 然 存 在 缺失 报 文 段 。 例 如 ， 图 27-22 
中 ， 如 果 携 带 4 ~ 8 字 节 的 报 文 段 是 链表 的 起 始 报 文 段 ， 但 zcv_nxt 等 于 2， 字 节 2 和 3 仍旧 缺 
失 ， 因 此 ， 不 能 把 4 ~ 15 字 节 提 交 给 应 用 进程 。 返 回 值 0 将 清除 FIN 标 志 (如 果 该 标志 设 定 )， 这 
是 因为 还 有 未 收 到 的 数据 ， 所 以 暂时 不 能 处 理 FIN。 
150-151 如 果 连 接 处 于 SYN_RCVD 状 态 ， 且 报 文 段 长 度 非 零 ， 则 函数 返回 90。 如 果 两 个 条 
件 均 为 真 ， 说 明 插 口 在 监听 过 程 中 收 到 了 携带 数据 的 SYN 报 文 段 。 数 据 将 保存 在 连接 队列 中 ， 
等 待 三 次 握手 过 程 结束 。 
152-164 循环 从 链表 的 第 一 个 报 文 段 开始 (从 前 面 的 测试 条 件 可 知 ， 它 携带 数据 的 次 序 已 经 
正确 )， 把 数据 放 入 插口 的 接收 缓存 ， 并 更 新 rcv_nxt 。 当 链表 为 空 ， 或 者 链表 下 一 报 文 段 的 
序号 又 出 现 差 错 ， 即 当前 处 理 报 文 段 与 下 一 报 文 段 间 存 在 缺失 报 文 段 时 ， 循 环 结束 。 此 时 ， 
flags 变 量 ( 国 数 的 返回 值 ) 等 于 0 或 者 为 TH_FIN， 取 决 于 放 人 插口 接收 缓存 的 最 后 一 个 报 文 
段 中 是 否 带 有 FIN 标 志 。 

在 所 有 mbuf 都 放 入 插口 的 接收 缓存 后 ，sorwakeup 唤 醒 所 有 在 插口 上 等 待 接 收 数据 的 应 
用 进程 。 


27.10 tcp trace ži 
图 26-32 中 ， 在 向 IP 递 交 报 文 段 之 前 ，tcp_output 调 用 了 tcp_trace 函 数 : 


if (so-»so options & SO DEBUG) 
top trace(TA OUTPUT, tp-»t state, tp, tl, 9); 


在 内 核 的 环形 缓存 中 添加 一 条 记录 ， 这 些 记 录 可 通过 trpt (8) 程 序 读 取 。 此 外 ， 如 果 内 核 
编译 时 定义 了 符号 TCPDEBUG， 并 且 变 量 tcpconsdqebug 非 零 ， 则 信息 将 输出 到 系统 控制 台 。 
任何 进程 都 可 以 设 定 TCP 的 插口 选项 SO_DEBUG， 要 求 TCP 把 信息 存储 到 内 核 的 
环形 缓存 中 。 但 只 有 特权 进程 或 系统 管理 员 才 能 运行 trzpt， 因 为 它 必 须 读 取 系 统 内 
存 才 能 获取 这 些 信 息 。 
尽管 可 以 为 任何 类 型 的 插口 设 定 SO_DUBUG 选 项 (如 UDP 或 原始 IP)， 但 只 有 TCP 
才 会 处 理 它 。 
这 些 信息 被 保存 在 tcp_debug 结 构 中 ， 如 图 27-24 所 示 。 
35-43 tcp_debug 很 大 (196 字 市 )， 因 为 它 包 含 了 其 他 两 个 结构 : 保存 IP 和 TCP 首 部 的 
tcpiphdr 和 完整 的 TCP 控 制 块 ttpcb。 由 于 保存 了 TCP 控 制 块 ， 其 中 的 任何 变量 都 可 通过 
trpt 打 印 出 来 。 也 就 症 说 ， 如 果 trpt 标 准 输 出 中 没有 包含 读者 感 兴趣 的 信息 ， 可 修改 源 代 
码 以 打印 控制 块 中 任何 想 要 的 信息 (Net/3 版 支持 这 种 修改 )。 图 25-28 中 的 RTT 变 量 就 是 通过 这 
种 方式 得 到 的 。 
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35 struct tcp debug ( Ng 
36 n time td time; i /* iptime(): ms since midnight, UTC */ 

31 short td act; /* TA xxx value (Figure 27.25) */ 

38 short td ostate; /* old State *J 

39 caddr t td tcb; /* addr of TCP connection block */ 

40 struct tcpiphdr td čis /* IP and TCP headers */ 

41 short td_req; /* PRU xxx value for TA USER */ 

42 struct tcpcb td chs /* TCP connection block */ 

43 fi 

53 4$define TCP NDEBUG 100 

54 struct tcp debug tcp debug[TCP. NDEBUG] ; 

55 int tcp. debx; tcp. debug.h 


图 27-24 tcp debug% #5 


53-55 图 27-24 还 定义 了 数组 tcp_debug， 也 就 是 前 面 提 到 的 环形 缓存 。 数 组 指针 
(tcp debx)g)81629 2E, 122528 2,8 20 000 字 市 。 

内 核 只 调用 了 tcp_trace 4 次 ， 每 次 调用 都 会 在 结构 的 tda_act 变 量 中 存 和 人 一 个 不 同 的 
值 ， 如 图 27-25 所 示 。 


TA DROP 当 输 入 报 文 段 被 丢弃 时 ， 被 Lcp_input 调 用 


TA INPUT 输入 处 理 完 毕 后 ， 调 用 kcp_output 之 前 
TA OUTPUT 调用 ip_output 发 送 报 文 段 之 前 
TA USER RPU_xxx 请 求 处 理 完毕 后 ， 被 tcp_usrreq 调 用 





图 27-25 td act 值 及 相应 的 tcp_trace 调 用 


图 27-26 给 出 了 tcp_tzrace 国 数 的 主要 部 分 ， 我 们 忽略 了 直接 输出 到 控制 台 的 那 部 分 
代码 。 
48-133 在 国 数 被 调用 时 ，ostate 中 保存 了 连接 的 前 一 个 状态 ， 与 连接 的 当前 状态 (保存 在 
控制 块 中 ) 相 比较 ， 可 了 解 连 接 的 状态 变迁 状况 。 图 27-25 中 ，TR_OUTPUT 不 改变 连接 状态 ， 
但 其 他 3 个 调用 则 会 导致 状态 的 转移 。 





48 void ip. debug. 


49 tcp trace(act, ostate, tp, ti, req) 
50 short act, ostate; 

ST struct tcpcb *tp; 

52 struct tcpiphdr *ti; 


53 int req; 

54 ( 

55 tcp seq seq, ack; 

56 int len, flags; 

57 struct tcp debug *td = &tcp debug[tcp debx-«-«]; 

58 if (tcp debx -- TCP NDEBUG) 

59 tcp debx - 0; /* circle back to start */ 
60 td-»td time = iptime(); 

61 td-»td act = act; 


图 27-26 tcp tracetü 7k: 在 内 核 的 环形 缓存 中 保存 信息 
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62 td->td_ostate = ostate; 

63 td-»td, tcb = (caddr t) tp: 

64 if (tp) 

65 td-»5td cb s *tp; /* structure assignment */ 
66 else 

67 bzero((caddr t) & td-»td cb, sizeof(*tp)); 

68 it (G1) 

69 td-»td. ti s *tii /* structure assignment */ 
70 else 

71 bzero((caddr t) & td-»td ti, sizeof(*ti)); 

72 td-»td req = req; 

73 #1ifdef TCPDEBUG 

74 if (tcpconsdebug == 0) 

75 return; 





/* output information on consoli 


132 #endif 


133 ) 
tcp. debug.c 


图 27-26 (£x) 


输出 举例 


图 27-27 列 出 了 tcpdump 输 出 的 前 4 行 ， 反 映 25.12 节 例子 中 的 三 次 握手 过 程 和 发 送 的 第 一 
个 数据 报 文 段 ( 卷 1 附 录 A 提 供 了 tcpdump 输 出 格式 的 细 5)。 
i 0,0 bsdi.1025 » vangogh.discard: S 20288001:20288001(0) 
win 4096 «mss 512» 


2 0.362719 (0.3627) vangogh.discard » bsdi.1025: S 3202722817:3202722817(0) 
ack 20288002 win 8192 
«mss 512» 


3 0.364316 (0.0016) bsdi.1025 » vangogh.discard: . ack 1 win 4096 
4 0.415859 (0.0515) bsdi.1025 » vangogh.discard: . 1:513(512) ack 1 win 4096 


图 27-27 反映 图 25-28 实 例 的 tcpdump 输 出 


图 27-28 列 出 了 与 之 对 应 的 trpt 的 输出 。 

图 27-28 的 输出 与 正常 的 trpt 输 出 相 比 略 有 一 些 不 同 : 32 bit 的 数字 序号 显示 为 
无 符号 整数 (trpt 将 其 差错 地 打印 为 有 符号 整数 ); 有 些 trpt 按 16 进 制 输出 的 值 被 改 
为 10 进 制 ; 为 了 编制 图 25-28， 作 者 人 为 地 把 从 tt rtt 到 t rxtcur 的 值 加 入 到 
trpt 中 。 


953738 SYN, SENT: output 20288001:20288005(4) Q0 (win-4096) 
«SYN» -> SYN SENT 
rcv nxt 0, rcv wna 0 
snd una 20288001, snd nxt 20288002, snd max 20288002 
snd wll 0, snd w12 0, snd wnd 0 
REXMT-12 (t rxtshift-0), KEEP-150 


图 27-28 反映 图 25-28 实 例 的 trpt 输 出 


£27 TCP% — 735 


Lt rxtt-l, t. 6rttsD, t rttvars24, t EXxECÓEÉ-12 


953739 CLOSED: user CONNECT -» SYN. SENT 
rcv nxt 0, rcv. wnd IO 
snd una 20288001, snd nxt 20288002, snd max 20288002 
snd wll 0, snd wl2 0, snd wnd 0 
REXMT-12 (t rxtshift-0), KEEP-150 
t rttsi, t.artte0, t rttwvars24, t.rxtcurszl2 


954103 SYN SENT: input 3202722817:3202722817(0) @20288002 (winz8192) 
«SYN,ACK» => ESTABLISHED 
rcv nxt 3202722818, rcv .wnd 4096 
snd una 20288002, snd nxt 20288002, snd max 20288002 
snd wll 3202722818, snd w12 20288002, snd wnd 8192 
KEEP-14400 
C rtt-Üü, t.srttsl16, t rttvar-A, t rxtéurse$ 


954103 ESTABLISHED: output 20288002:20288002(0) 83202722818 (winz4096) 
«ACK» -» ESTABLISHED 
rcv nxt 3202722818, rcv wnd 4096 
snd una 20288002, snd nxt 20288002, snd max 20288002 
snd wl1l1 3202722818, snd w1l2 20288002, snd wnd 8192 
KEEP-14400 
tC tts0 E.srtts16, t rttvaür-4, t. rxtóurs-6 


954153 ESTABLISHED: output 20288002:20288514(512) 83202722818 (win=4096) 
«ACK» -» ESTABLISHED 
rcv nxt 3202722818, rcv wnd 4096 
snd una 20288002, snd nxt 20288514, snd max 20288514 
snd wll 3202722818, snd w12 20288002, snd wnd 8192 
REXMT-6 (t rxtshift-0), KEEP-14400 
L.rtt-l, t.Srttelb, t rttvar-4, t rxtcursbs 


图 27-28 (£3) 


在 时 刻 953738， 发 送 SYN。 注 意 ， 代 码 中 的 时 间 变 量 有 8 位 数字 ， 以 毫秒 为 单位 ， 这 里 只 
输出 了 低 6 位 。 输 出 的 结束 序号 (20288005) 是 差错 的 。SYN 中 确实 携带 了 4 字 市 的 内 容 ， 但 并 
非 数 据 ， 而 是 MSS 选 项 。 重 传 定时 器 设 定 为 6 秒 (REXMT)， 保 活 定 时 器 为 75 秒 (KEEP)， 这 些 定 
时 器 值 均 以 500 ms 滴答 为 单位 。t_rtt 等 于 1， 意 味 对 该 报 文 段 计 时 ,测量 RTT 样 本 值 。 

发 送 SYN 是 为 了 啊 应 应 用 进程 的 connect 调 用 。 一 毫秒 后 ， 这 次 系统 调用 的 信息 被 写 入 
内 核 的 环形 缓存 。 尽 管 是 因为 应 用 进程 调用 了 connect ， 才 导致 发 送 SYN 报 文 段 ， 但 TCP 在 
处 理 完 PRU_CONNECT 请 求 后 ， 才 调用 tcp_trace, 环形 缓存 中 实际 写 入 了 两 条 记录 。 此 外 ， 
应 用 进程 调用 connect 了 时， 连接 状态 为 CLOSED， 发 送 完 SYN 后 ， 状 态 变 了 迁 至 SYN_SENT,， 
这 也 是 两 条 记录 仅 有 的 不 同 之 处 。 

第 三 条 记录 ， 时 刻 954103， 与 第 一 条 记录 相隔 365 ms (tcpdump 显 示 时 间 差 为 362.7 ms), 
即 为 图 25-28 中 “实际 时 间 差 (ms)” 一 栏 的 填充 值 。 收 到 带 有 SYN 和 ACK 的 报 文 段 后 ， 连 接 状 
态 从 SYN_SENT 转 移 到 ESTABLISHED。 因 为 计时 报 文 段 已 得 到 确认 ， 更 新 RTT 估 计 器 值 。 

第 四 条 记录 反映 了 三 次 握手 过 程 中 的 第 三 个 报 文 段 : 确认 对 端的 SYN。 因 为 是 纯 ACK 报 
文 段 ， 不 用 对 它 计 时 (ztt 等 于 0)， 它 在 时 刻 954103 被 发 送 。connect 系 统 调用 返回 ， 应 用 进 
程 接着 调用 write 发 送 数据 ， 产 生 TCP 输 出 。 

第 五 条 记录 反映 了 这 个 数据 报 文 段 ， 在 时 刻 954153， 三 次 握手 结束 后 50 ms， 被 发 送 。 它 
携带 50 字 市 的 数据 ， 起 始 序 号 为 20288002。 重 传 定时 絮 设 为 3 秒 ， 需 要 计时 。 

应 用 进程 继续 调用 write 发 送 数据 。 尽 管 不 再 显示 更 多 记录 ， 但 很 明显 ， 接 下 来 的 3 条 记 
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录 也 都 是 在 TCP 处 理 完 PRU_SEND 请 求 后 写 和 人 环形 缓存 的 。 第 一 次 PRU_SEND 请 求 ， 生 成 我 们 
已 看 到 的 第 一 个 512 字 节 的 输出 报 文 段 ， 其 他 3 次 请 求 不 会 引发 TCP 输 出 报 文 段 ， 此 时 连接 正 
处 于 慢 起 动 状态 。 只 生成 4 条 记录 是 因为 ， 图 25-28 的 例子 中 的 TCP 发 送 缓存 大 小 只 有 4096， 
mbuft 徐 大 小 为 1024。 一 旦 发 送 缓存 被 占 满 ， 应 用 进程 就 进入 休眠 状态 。 


27.11 小 结 


本 草 介 绍 了 各 种 TCP 国 数 ， 为 后 续 章 节 打 下 基础 。 

TCP 连 接 正 党 关闭 时 ， 辐 对 端 发 送 FIN ， 并 等 待 4 次 报 文 交 换 过 程 结 束 。 它 被 丢弃 时 ， 只 
需 发 送 RST。 

路 由 表 中 的 每 条 记录 都 包含 8 个 变量 ， 其 中 有 3 个 在 连接 关闭 时 更 新 ， 有 6 个 用 于 新 连接 的 
建立 ， 从 而 内 核能 够 跟踪 与 同一 目标 之 间 建 立 的 正常 连接 的 某 些 特性 ， 如 RTT 估 计 器 值 和 慢 
起 动 门限 。 系 统管 理 员 可 以 设置 或 锁定 部 分 变量 ， 如 MTU 、 接 收 管道 大 小 和 发 送 管道 大 小 ， 
这 些 特 性 会 影响 到 达 该 目标 的 连接 的 性 能 。 

TCP 对 收 到 的 ICMP 差 错 有 一 定 的 容错 性 
ICMP 差 错 的 方式 与 早期 的 Berkeley 版 本 不 同 。 

TCP 报 文 段 可 能 乱 序 到 达 ， 并 包含 重复 数据 ，TCP 必 须 处 理 这 些 异 常 现象 。TCP 为 每 条 连 
接 维护 一 个 重组 队列 ， 保 存 乱 序 报 文 段 ， 处 理 之 后 再 提交 给 应 用 进程 。 

最 后 介绍 了 选 定 插口 选项 SO_DEBUG 时 ， 内 核 中 保存 的 信息 。 除 某 些 程序 如 tcpdump 之 
外 ， 这 些 内 容 也 是 很 有 用 的 调试 工具 。 


习题 


27.1 为 什么 图 27-1 中 最 后 一 行 的 errno 等 于 0? 

27.2 rmx_rtt 中 存储 的 最 大 值 是 多 少 ? 

27.3 为 了 保存 茶 个 给 定 主机 的 路 由 信息 (图 27-3)， 我 们 用 手工 在 本 地 的 路 由 表 中 添加 一 
条 到 达 该 主机 的 路 由 。 之 后 ， 运 行 FTP 客 尸 程 序 ， 向 这 台 主 机 发 送 足 够 多 的 数据 ， 
如 图 27-4 所 要 求 的 。 但 终止 FTP 客 户 程 序 后 ， 检 查 路 由 表 ， 到 达 该 主机 的 所 有 变量 
依旧 为 0。 出 了 什么 问题 ? 
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TCP 输 入 处 理 是 系统 中 最 长 的 一 部 分 代码 ， 图 数 tcp_input 约 有 1100 行 代码 。 输 入 报 文 
段 的 处 理 并 不 复杂 ， 但 非常 烦琐 。 许 多 实现 ， 包 括 Net3 ， 都 完全 遵循 RFC 793 中 定义 的 输入 
事件 处 理 步 骤 ， 它 详细 定义 了 如 何 根据 连接 的 当前 状态 ， 处 理 不 同 的 输入 报 文 段 。 

当 收 到 的 数据 报 的 协议 字段 指明 这 是 一 个 TCP 报 文 段 时 ，ipintr( 通 过 协议 转换 表 中 的 
pr_input 了 印 数 ) 会 调用 tcp_input 进 行 处 理 。tcp_input 在 软件 中 断 一 级 执行 。 

函数 非常 长 ， 我 们 将 分 两 章 讨 论 。 图 28-1 列 出 了 tcp_input 中 的 处 理 框 架 。 本 章 将 结束 
对 RST 报 文 段 处 理 的 讲解 ， 从 下 一 章 开始 介绍 ACK 报 文 段 的 处 理 。 

头 几 个 步骤 是 非常 典型 的 : 对 输入 报 文 段 做 有 效 性 验证 (检验 和 、 长 度 等 )， 以 及 寻找 连接 
的 PCB。 尽 管 后 面 还 有 大 量 代码 ， 但 通过 “首部 预测 (header prediction)”(28.4 市 )， 算 法 却 有 
可 能 完全 跳 过 后 续 的 逻辑 。 首 部 预测 算法 是 基于 这 样 的 假定 : 一 般 情况 下 ， 报 文 段 既 不 会 丢 
失 ， 次 序 也 不 会 错误 ， 因 此 ， 对 于 给 定 连 接 ，TCP 总 能 猜 到 下 一 个 接收 报 文 段 的 内 容 。 如 果 
算法 起 作用 ， 国 数 直接 返回 ， 这 是 tcp_input 中 最 快 的 一 条 执行 路 径 。 

如 果 算 法 不 起 作用 ， 国 数 在 “dodata” 处 结束 ， 测 试 几 个 标志 ， 并 且 若 需要 对 接收 报 文 段 
做 出 啊 应 ， 则 调用 tcp_output。 


void 
tcp input() 
( 

checksum TCP header and data; 
findpcb: 

locate PCB for segment; 

if (not found) 

goto dropwithreset; 


reset idle time to 0 and keepalive timer to 2 hours; 
process options if not LISTEN state; 


if (packet matched by header prediction) { 
completely process received segment; 
return; 


} 


switch (tp->t_state) { 

case TCPS LISTEN: 
if SYN flag set, accept new connection request; 
goto trimthenstep6; 


case TCPS SYN SENT: 
if ACK of our SYN, connection completed; 
trimthenstep6ó: 
trim any data not within window; 


图 28-1 TCP 输 入 处 理 步 骤 小 结 
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goto stepó; 
] 


process RFC 1323 timestamp; 
check if some data bytes are within the receive window; 


trim data segment to fit within window; 


if (RST flag set) f 
process depending on state; 
goto drop; 
] /* Chapter 28 finishes here */ 


if (ACK flag set) { /* Chapter 29 starts here */ 
if (SYN RCVD state) 
simultaneous open complete; 
if (duplicate ACK) 
fast recovery algorithm; 
update RTT estimators if segment timed; 
open congestion window; 
remove ACKed data from send buffer; 
change state if in FIN WAIT 1, CLOSING, or LAST ACK state; 


} 


stepó: 
update window information; 


process URG flag; 


dodata: 
process data in segment, add to reassembly queue; 


if (FIN flag is set) 
process depending on state; 


if (SO DEBUG socket option) 
tcp trace(TA INPUT); 


if (need output || ACK now) 
tcp output (); 
return; 


dropafterack: 
tcp output() to generate ACK; 
return; 


dropwithreset: 
tcp respond() to generate RST; 
return; 


drop: 
if (SO DEBUG socket option) 
tcp trace(TA DROP); 
return; 


图 28-1 (fX) 


图 数 结尾 处 有 3 个 标注 ， 处 理 出 现 差 错时 控制 会 跳 转 到 这 些 地 方 : dropafterack.、 
dropwithreset 和 drop。 标 注 中 出 现 的 “drop” 指 丢弃 当前 处 理 的 报 文 段 ， 而 非 丢 弃 连 
接 。 不 过 ， 当 控制 跳 转 到 dropwithreset 时 ， 将 发 送 RST， 从 而 丢弃 连接 。 

函数 仅 有 的 另 一 个 分 支 是 首部 预测 算法 后 的 switch 语 句 ， 如 果 连 接 处 于 LISTEN 或 
SYN_SENT 状 态 时 收 到 了 一 个 有 效 的 SYN 报 文 段 ， 它 负责 分 别 进行 处 理 。trimthenstep6 
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处 的 代码 结束 后 ， 跳 转 到 step 6， 继续 执行 正常 的 流程 。 
28.2 预 处 理 


图 28-2 的 代码 包含 一 些 声 明 ， 并 对 收 到 的 TCP 报 文 段 进行 预 处 理 。 
1. 从 第 一 个 mbuf 中 获取 IP 和 TCP 首 部 

参数 iphlen 等 于 IP 首 部 长 度 ， 包 括 可 能 的 IP 选 项 。 如 果 长 度 大 于 20 字 市 ， 可 知 存 
在 IP 选 项 ， 调 用 ip_stripoptions 丢 弃 这 些 选 项 。TCP 忽 略 除 源 选 路 之 外 的 所 有 IP 选 项 ， 
源 选 路 选项 由 IP 特 别 保存 (9.6 节 )，TCP 能 够 读 取 其 内 容 ( 图 28-7)。 如 果 簇 中 第 一 个 mbuf 的 容 
量 小 于 IP/TCP 首 部 大 小 (40 字 节 )， 则 调用 m_pullup， 试 着 把 最 初 的 40 字 市 移入 第 一 个 
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mbuf 中 。 


170 void 


171 tcp input(m, iphlen) 
172 struct mbut *m; 


173 2n 


174 ( 
175 
176 
LT? 
178 
LFA 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 


190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 


iphlen; 


struct tcpiphdr *ti; 
struct inpcb *inp; 
caddr.t optp = NULL; 


int optlen; 

int len, tlen, off; 

struct tcpcb *tp = 0; 

int tiflags; 

struct socket *so; 

int todrop, acked, ourfinisacked, needoutput - 0; 


short ostate; 
struct in_addr laddr; 


Lr dropsocket - 0; 

int iss = 0; 

u long tiwin, ts, val, ts. ecr; 
int ts. present = 0; 


tcpstat.tcps rcvtotal--; 

/* 

* Get IP and TCP header together in first mbuf. 

* Note: IP leaves IP header in first mbuf. 

ub i) 
ti = mtod(m, struct tcpiphdr *); 

if (iphlen » sizeof(struct ip)) 

ip stripoptions(m, (struct mbuf *) 0); 


if (m-»m len < sizeof (struct tcpiphdr)) { 
if ((m = m pullup(m, sizeof(struct tcpiphdr))) ss 0) 
tcpstat.tcps rcvshort--; 
return; 


) 
ti = mtodí(m, struct tepiphdr *),; 


图 28-2 tcp inputrKZ&k: 变量 声明 及 预 处 理 


图 28-3 给 出 了 国 数 下 一 部 分 的 代码 ， 验 证 TCP 检 验 和 及 偏 移 字段 。 


2. 验证 TCP 检 验 和 
tlen 指 TCP 报 文 段 的 长 度 ， 即 IP 首 部 后 的 字 节 数 。 前 面 介 绍 过 ，IP 已 经 从 
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tcp input.c 


tcp. input.c 
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ip_len 中 减 去 了 IP 的 首部 长 度 ， 因 此 ， 变 量 len 就 等 于 整个 IP 数 据 报 的 长 度 ， 即 包括 伪 首 部 
在 内 的 需要 计算 检验 和 的 数据 长 度 。 根 据 TCP 检 验 和 计算 的 要 求 ， 填 充 伪 首 部 中 的 各 个 字段 ， 
如 图 23-19 所 示 。 





es T tcp. input.c 

206 * Checksum extended TCP header and data. 

207 * 7 

208 tlen = ((struct ip *) ti)-»ip.len; 

209 len = sizeof(struct ip) + tlen; 

210 ti-»ti next s ti-»tl.prev = 0; 

211 ti-»ti x1 = 0; 

212 tl-»ti. len = (u short) tlen; 

ZTB HTONS (ti->ti_len); 

214 if (ti->ti_sum = in cksum(m, len)) ( 

215 tcpstat.tcps rcvbadsum-«-; 

216 goto drop; 

217 ) 

218 rs 

219 * Check that TCP offset makes sense, 

220 * pull out TCP options and adjust length. XXX 

221 x 

222 Off = Lti-»ti off z 2: 

223 if (off < sizeof(struct tcphdr) || off >» tlen) ( 

224 tcpstat.tcps rcvbadoff-«-; 

225 goto drop; 

226 ) 

227 tlen -= oft; 

228 ti-»ti len = tlen; ) 
tcp input.c 





图 28-3 tcp inputrAZk: 验证 TCP 检 验 和 及 偏 移 字段 


3. 验证 TCP 偏 移 字段 
218-228 TCP 的 偏 移 字段 ，ti_off， 是 以 32 bit 为 单位 的 TCP 首 部 长 度 值 ， 包 括 所 有 的 
TCP 选 项 。 把 它 乘 以 4( 得 到 TCP 报 文 段 中 第 一 个 数据 字 市 所 在 位 置 的 偏 移 量 )， 并 验证 其 有 效 
性 。 偶 移 量 必须 大 于 等 于 标准 TCP 首 部 的 大 小 (20 字 节 )， 并 且 小 于 等 于 TCP 报 文 段 的 长 度 。 

从 TCP 长 度 变量 tlen 中 减 去 首部 长 度 ， 得 到 报 文 段 中 携带 的 数据 字 节 数 (可 能 为 0)， 并 把 
这 个 值 赋 给 tlen， 以 及 TCP 首 部 的 变量 ti_len。 国 数 中 会 多 次 用 到 这 个 值 。 

图 28-4 给 出 了 函数 下 一 部 分 的 代码 ， 处 理 特定 的 TCP 选 项 。 


tcp_input.c 
229 lf (off > sizeof (strúct tephar)) + 
230 if (m-»m len < sizeof(struct ip) + off) ( 
231 if ((m = m pullupim, sizeof(struct ip) + off)) == 0) A 
234 tcpstat.tcps rcvshort-4-*; 
233 return; 
234 ) 
235 ti = mtod(m, strüct tcpiphdr *); 
236 ) 
2237 optlen - off - sizeof(struct tcphdr); 
238 optp 三 mtod(m, caddr t) + sizeof(struct tcpiphdr); 
239 fT 
240 * Do quick retrieval of timestamp options (“options 


28-4 tcp inputiRZX: 处 理 特定 的 TCP 选 项 
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241 * prediction?"). If timestamp is the only option and it's 
242 * formatted as recommended in RFC 1323 Appendix A, we 
243 * quickly get the values now and not bother calling 
244 * tco dooptionsí()]), etc. 

245 * / 

246 if ((optlen -- TCPOLEN TSTAMP APPA || 

247 (optlen > TCPOLEN TSTAMP APPA && 

248 Optp[TCPOLEN TSTAMP APPA] -- TCPOPT EOL)) && 

249 *(u long *) optp == htonl(TCPOPT TSTAMP. HDR) && 
250 (ti-»5ti flags & TH SYN) == 0) 4 

al ts present = 1; 

252 ts val = ntohl(*(u long *) (optp + 4)): 

4543 ts eer = ntohlí*(u.long *) (optp + B)): 

254 Ooptp = NULD: /* we've parsed the options */ 
255 } 

256 } 


tcp_input.c 
图 28-4 (f£) 


4. 把 IP 和 TCP 首 部 及 选项 放 入 第 一 个 mbuf 
230-236 如 末 首 部 长 度 大 于 20， 说 明 存 在 TCP 选 项 。 必 要 时 调用 m_pullup， 把 标准 IP 首 
部 、 标 准 TCP 首 部 的 所 有 TCP 选 项 放 和 人 徐 中 的 第 一 个 mbuf 中 。 因 为 3 部 分 数据 最 大 只 能 为 80 字 
(20+20+40)， 因 此 ， 必 定 能 够 放 入 第 一 个 存储 数据 分 组 首部 的 mbuf 中 , 


此 处 能 够 造成 m_pPullup 失 败 的 唯一 原因 是 IP 数 据 分 组 的 字 节 数 小 于 20 加 上 TCP 
首部 长 度 ， 而 且 已 通过 TCP 检 验 和 的 验证 ， 我 们 认为 m_pullup 不 可 能 失败 。 但 有 一 
点 ， 图 28-2 中 调用 的 m_pullup， 将 共享 计数 器 tcps rcvshort， 因此， 查看 
tcps_rcvshort 并 不 能 说 明 哪 一 个 调用 失败 。 不 管 怎 样 ， 从 图 24-5 可 知 ， 即 使 收 到 
九 百 万 个 TCP 报 文 段 之 后 ， 这 个 计数 器 仍旧 为 0。 


S. 快速 处 理 时 间 截 选项 
237-255 optlen 等 于 首部 中 TCP 选 项 的 长 度 ，optp 是 指向 第 一 个 选项 字 市 的 指针 。 如 果 
下 列 3 个 条 件 均 为 真 ， 说明 只 存在 时 间 截 选项， 而且 格式 正确 : 

1) TCP 选 项 长 度 等 于 12(TCPOLEN TSTAMP APPA), 或 TCP 选 项 长 度 大 于 12， 但 
optp [12] PEMER., 

2) 选项 的 头 4 个 字 节 等 于 0x0101080a(TCPOPT TSTAMP HDR， 在 26.6 节 曾 讨 论 过 )。 

3) SYN 标 志 未 置 位 (说 明 连 接 已 建立 ， 如 果 报 文 段 中 出 现时 间 惟 选项 ， 意 味 着 连接 双方 都 
同意 使 用 这 一 选项 )。 

如 果 上 述 条 件 全 部 满足 ， 则 ts_present 置 为 1， 从 接收 报 文 段 首部 获取 两 个 时 间 戳 值 ， 
分 别 赋 给 ts_va1l 和 ts_ecr;， optp 置 为 空 ， 因 为 所 有 选项 已 处 理 完毕 。 这 种 辨认 时 间 釉 的 
方法 可 以 避免 调用 通用 选项 处 理 函 数 tcp_dooptions， 从 而 使 后 者 能 够 专门 处 理 只 出 现在 
SYN 报 文 段 中 的 各 种 选项 (MSS 和 窗口 大 小 选项 )。 如 果 连 接 双方 同意 使 用 时 间 戳 ， 那 么 在 建立 
的 连接 上 交换 的 几乎 所 有 报 文 段 中 都 可 能 带 有 时 间 戳 选项， 因此， 必须 加 快 其 处 理 速度 。 

图 28-5 给 出 了 国 数 下 一 部 分 的 代码 ， 寻 找 报 文 段 的 Internet PCB, 

6. 保存 输入 标志 ， 把 字段 转换 为 主机 字 节 序 
257-264 接收 报 文 段 中 的 标志 (SYN、FIN 等 ) 被 保存 在 本 地 变量 tiflags 中 ， 因 为 函数 在 
处 理 过 程 中 会 多 次 引用 这 些 标志 。TCP 首 部 的 两 个 16 bit 字 段 和 两 个 32 bit 序 号 被 转换 回 主机 字 
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节 序 ， 而 两 个 16 bit 端 口号 则 不 做 处 理 ， 依 旧 为 网 络 字 节 序 ， 因 为 Internet PCB 中 的 端口 号 契 


依照 网 络 字 市 序 存 储 的 。 
2857 tiflags = ti-»ti flags; R ES 
258 E? 
259 * Convert TCP protocol specific fields to host format. 
260 d i 
261 NTOHL (ti-»ti. seq); 
262 NTOHL (ti-»ti. ack); 
263 NTOHS(ti-»ti win); 
264 NTOHS (ti-»ti urp); 
265 "da 
266 * Locate pcb for segment. 
267 fJ 
268 findpcb: 
269 inp s tcp last. inpcb; 
270 if (inp-»inp.lport !s ti-»5ti dport || 
2171 inp-»inp.fport !s ti-»ti.sport l|: 
272 inp-»inp. faddr.s, addr !- ti-»ti, src.s, addr || 
273 inp-»inp laddr.s addr !- ti-»ti dst.s addr) ( | 
274 inp = in, pcblookup(&tcb, ti-»ti src, ti-»ti sport, 
275 ti-»ti dst, ti-»ti dport, INPLOOKUP WILDCARD); 
276 if (inp) 
271 tcp last inpcb - inp; 
278 --tcpstat.tcps pcbcachemiss; 
279 ) 


tcp input.c 


图 28-5 tcp inputFAZk: 寻找 报 文 段 的 Internet PCB 


7. 33 X Internet PCB 
265-279 TCP 的 缓存 (tcp_last_inpcb) 中 保存 了 收 到 的 最 后 一 个 报 文 段 的 PCB 地 址 ， 采 
用 的 技术 与 UDP 相 同 。TCP 使 用 一 对 插口 来 识别 连接 ， 和 寻找 PCB 时 插口 对 中 4 个 元 素 的 比较 次 
序 与 udp_input 相 同 。 如 果 与 TCP 缓 存 中 的 记录 不 匹配 ， 则 调用 in_pcblookup， 把 新 的 
PCB 放 入 缓存 。 

TCP 中 不 会 出 现 我 们 在 UDP 中 曾 遇 到 过 的 问题 : 由 于 高 速 缓存 中 存在 通 配 项 (wildcard 
entry)， 导 致 匹配 成 功率 很 低 。 因 为 只 有 处 于 监听 状态 的 服务 器 ， 才 可 能 在 其 插口 中 保存 通 配 
项 。 连 接 一 旦 建立 ， 插 口 对 的 4 个 元 素 将 全 部 填 入 确定 值 。 从 图 24-5 可 知 ， 高 速 缓存 命中 率 能 
853^ $8096 , 

图 28-6 给 出 了 函数 下 一 部 分 的 代码 。 


280 
281 
282 
283 
284 
285 
286 
287 
288 


tcp_input.c 
* If the state is CLOSED (i.e., TCB does not exist) then 
* all data in the incoming segment is discarded. 
* If the TCB exists but is in CLOSED state, it is embryonic, 
* but should either do a listen or a connect soon. 
x 
if (inp == 0) 
goto dropwithreset; 
tp = intotcpcb(inp); 


图 28-6 tcp inputrAZk: 判断 是 否 应 丢弃 报 文 段 
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289 if (tp == 0) 
290 goto dropwithreset; 
291 if (tp-»t state --' TCPS CLOSED) 
292 goto drop; 
293 /* Unscale the window into a 32-bit value. */ 
294 if ((tiflags & TH SYN) == 0) 
295 tiwin = ti->ti win << tp-»snd, scale; 
296 else 
297 tiwin - ti-»ti win; f 
tcp input.c 
图 28-6 (£x) 
8. 丢弃 报 文 段 并 生成 RST 


280-287 如 果 设 有 找到 PCB ， 则 丢弃 输入 报 文 段 ， 并 发 送 RST 作 为 响应 。 例 如 ，TCP 收 到 了 
一 个 SYN， 但 报 文 段 指 定 的 服务 器 并 不 存在 ， 则 直接 向 对 端 发 送 RST。 回 想 一 下 ， 出 现 这 种 
情况 时 UDP 的 处 理 方式 ， 它 将 发 送 一 个 ICMP 端 口 不 可 达 差 错 。 
288-290 如 果 PCB 存 在 ,但 对 应 的 TCP 控 制 块 不 存在 ， 可 能 插口 已 关闭 (tcp_close 和 释放 
TCP 之 后 ， 才 释放 PCB)， 则 丢弃 输入 报 文 段 ， 并 发 送 RST 作 为 响应 。 

9. 丢弃 报 文 段 且 不 发 送 响 应 
291-292 如果 TCP 控 制 块 存在 ， 但 连接 状态 为 CLOSED， 说 明 插 口 已 创建 ， 且 得 到 了 本 地 
地 址 和 本 地 端口 号 ， 但 还 未 调用 connect 或 者 1isten。 报 文 段 被 丢弃 ， 且 不 发 送 任何 啊 应 。 
举例 来 说 ， 如 果 客 户 向 服务 器 发 送 的 连接 请 求 报 文 段 到 达 时 ， 服 务 器 已 调用 了 bind， 但 还 未 
调用 1isten。 这 种 情况 下 ， 客 户 连 接 请 求 将 超时 ， 导 致 重 传 SYN。 

10. 不 改变 通告 窗口 大 小 
293-297 如 果 需 要 支持 窗口 大 小 选项 ， 连 接 双方 都 必须 在 连接 建立 时 通过 窗口 大 小 选项 规 
定 窗 口 缩放 因子 。 如 果 报 文 段 中 包含 SYN， 说 明 此 时 窗口 缩放 因子 还 未 定义 ， 因 此 ， 直 接 把 
TCP 首 部 的 窗口 字段 值 复制 给 tiwin， 否则 ， 首 部 中 的 16 bit 数 值 应 根据 窗口 缩放 因子 左 移 ， 
得 到 32 bit 的 数值 。 

图 28-7 给 出 了 函数 的 下 一 部 分 代码 ， 如 果 选 取 了 插口 的 SO_DEBUG 选 项 ， 或 者 插口 正 处 于 
监听 状态 ， 则 完成 一 些 相 应 的 预 处 理工 作 。 


298 SO = inp-»inp. socket; ORARE 
299 if (so-»so options & (SO DEBUG | SO ACCEPTCONN)) ( 
300 if (so-»so options & SO DEBUG) ( 

301 ostate = tp-»t state; 

302 tcp saveti - *ti; 

303 ) 

304 if (so-»so options & SO,ACCEPTCONN) ( 

305 SO = Sonewconn(so, 0); 

306 if (so == O) 

307 goto drop; 

308 /[* 

309 *" This is wdlw, Bbüt .... 

310 * 

244 * Mark socket as temporary until we're 
312 * committed to keeping it. The code at 
313 * 'drop' and 'dropwithreset' check the 


图 28-7 tcp inputrFAZ&E: 处 理 调试 选项 和 监听 状态 的 插口 
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314 * flag dropsocket to see if the temporary 

315 * socket created here should be discarded. 

316 * We mark the socket as discardable until 

317 * we're committed to it below in TCPS LISTEN. 

318 i 

319 dropsocket-4-; 

320 lüp = (struct inpcb *) 860-5850 pcb; 

321 inp-»inp laddr = ti-»ti dst; 

322 inp-»inp.lport = ti-»ti dport; 

323 4if BSD»-43 

324 inp-»inp. options = ip srcroute(); 

325 #endif 

326 tp = intotcpcb(inp); 

341 tp-»5t, state = TCPS. LISTEN; 

328 /* Compute proper scaling value from buffer space */ 

329 while (tp-»request r scale « TCP MAX WINSHIFT && 

330 TCP MAXWIN «« tp-»request r scale « so-»so rcv.sb hiwat) 

331 tp-»request r scale-«-; 

332 ) 

333 ) : 

tcp input.c 

图 28-7 (£x) 


11. 如 果 选 定 了 插口 调试 选项 ， 则 保存 连接 状态 及 IP 和 TCP 首 部 
300-303 如 果 SO DEBUGJIEJW AM, 则 保存 当前 连接 状态 (ostate) 及 IP 和 TCP 首 部 
(tcp_saveti)。 函 数 结束 时 ， 这 些 信息 将 作为 参数 传 给 tcp_trace( 图 29-260)。 

12. 如 果 监 听 插 口 收 到 了 报 文 段 ， 则 创建 新 的 插口 
304-319 如 果 有 报 文 段 到 达 处 于 监听 状态 的 插口 (Listen 置 位 SO_ACCEPTCONN)， 则 调用 
sonewconn 创 建新 的 插口 。 发 出 PRU_ATTACH 协 议 请 求 ( 图 30-2)， 分 配 Internet PCB 和 TCP 控 
制 块 。 在 TCP 最 终 接受 连接 请 求 之 前 ， 还 需 做 更 多 的 处 理 ( 如 一 个 最 基本 的 问题 ， 报 文 段 中 在 
否 包含 SYN)， 如 果 发 现 差错 ， 置 位 dropsocket 标 志 ， 控 制 跳 转 至 标注 “drop 和 
*dropwithreset", AJAI Hl, 
320-326 inp 和 tp 将 指向 新 建 的 插口 。 本 地 地 址 和 本 地 端口 号 直接 从 接收 报 文 段 TCP 首 部 
的 目的 地 址 和 目的 端口 号 字段 中 复制 。 如 果 输 入 数据 报 中 有 源 选 路 的 路 由 ，TCP 调 用 
ip srcroute, 得 到 指向 保存 数据 报 源 选 路 选项 的 mbuf 的 指针 ， 并 赋 给 ijnp_options。 
TCP 向 连接 发 送 数据 时 ，tcp_output 会 把 源 选 路 选项 传 给 ip_output ， 使 用 与 之 相同 的 逆 


向 路 由 。 
327 新 插口 的 状态 设 为 LISTEN。 如 果 接 收报 文 段 中 包含 SYN, 控制 将 转 到 图 28-16 中 的 代码 ， 
完成 连接 建立 请 求 的 处 理 。 

13. 计算 窗口 缩放 因 于 


328-331 窗口 缩放 因子 取决 于 接收 缓存 的 大 小 。 如 果 接 收 缓存 大 于 通告 窗口 的 最 大 值 
65535(TCP MAXWIN)， 则 左 移 65 535， 直 到 结果 大 于 接收 缓存 大 小 ， 或 者 窗口 缩放 因子 已 等 
于 最 大 值 14(TCP_MAX _WINSHIFT)。 注 意 ， 窗口 缩放 因子 的 选取 基于 监听 插口 的 接收 缓存 ， 
也 就 是 说 ， 应 用 进程 调用 1isten 进 入 监听 状态 之 前 ， 应 首先 设 定 S0_RCVBUF 插 口 选 项 ， 或 
者 继承 tcp_recvspace 中 的 默认 值 。 

窗口 缩放 因子 最 大 值 等 于 14， 而 65 535 x 2* 等 于 1 073 725 440, 已 远 远 大 于 接收 
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缓存 的 最 大 值 (Net/3 中 为 262 144)， 因 此 ， 在 窗口 缩放 因子 远 小 于 14 时 ， 循 环 即 终止 。 
参见 习题 28.1 和 28.2 


图 28-8 给 出 了 ITCP 输 入 处 理 下 一 部 分 的 代码 。 


TT 7 tcp input.c 
335 * Segment received on connection. 
336 * Reset idle time and keepalive timer. 
337 * y 
338 tp-»t idle = 0; 
339 tp-»t timer[TCPT KEEP] - tcp keepidle; 
340 i 
341 * Process options if not in LISTEN state, 
342 * else do it below (after getting remote address). 
343 xi 
344 if (optp && tp-»t state !- TCPS LISTEN) 
345 tcp dooptions(tp, optp, optlen, ti, 
346 &ts present, &ts val, &ts ecr); a 
tcp input.c 


图 28-8 tcp inputtAZk: 复位 空 亲 时间 和 保 活 定时 器 ， 处 理应 用 进程 选项 


14. 复位 空 亲 时 间 和 保 活 定 时 堪 
334-339 由 于 连接 上 收 到 了 报 文 段 , t_idqle 重 设 为 0。 保 活 定 时 右 复 位 为 2 小 时 。 

15. 如 采 不 处 于 监听 状态 ， 处 理 TCP 选 项 
340-346 如 果 TCP 首 部 中 有 选项 ， 并 且 连 接 状 态 不 等 于 LISTEN， 调 用 tcp_aqooptions 进 
行 处 理 。 前 面 介 绍 过 ， 如 东 连 接 已 建立 ， 接 收报 文 段 中 只 存在 时 间 惟 选项 ， 并 且 时 间 惟 选项 
格式 符合 RFC 1323 附 录 A 的 建议 ， 这 种 情况 在 图 28-4 中 已 处 理 过 ， 而 且 optp 被 置 为 空 。 如 果 
插口 处 于 监听 状态 ，TCP 把 对 端 地 址 保存 在 PCB 中 之 后 ， 才 会 调用 tcp_dooptions， 这 是 
因为 处 理 MSS 选 项 时 需要 了 解 到 达 对 端的 路 由 ， 具 体 代 码 如 图 28-17 所 示 。 


28.3 tcp dooptionsiA/Zi 


函数 处 理 Net/3 支 持 的 5 个 TCP 选 项 (图 26-4): EOL、NOP、MSS、 窗 口 大 小 和 时 间 惟 。 图 
28-9 给 出 了 函数 的 第 一 部 分 。 





1213 void tcp_input.c 


1214 tcp dooptions(tp, cp, cnt, ti, ts present, ts val, ts, ecr) 
1215 struct tcpcb *tp; 
1216 u, char *cp; 


1217 int cnt; 

1218 struct tcpiphdr *ti; 

1219 int *ts present; 

1220 u long *ts val, *ts. ecr; 

1221 f 

1222 u short mss; 

1223 int opt, optlen; 

1224 for (; cnt > 0; cnt -= optlen, cp += optlen) ( 
1225 opt = cp[O0]; 

1226 if (opt -- TCPOPT EOL) 


图 28-9 tcp dooptionsrQZk: 处 理 EOL 和 NOP 选 项 
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1227 break; 

1228 if (opt == TCPOPT_NOP) 
1229 optlen = 1; 

1230 else { 

1231 optlen = cp[1]; 
1232 if (optlen <= 0) 
1233 break; 

1234 ) 

1235 switch (opt) ( 

1236 default: 

1237 continue; 


tcp input.c 
图 28-9 (4%) 


1. 获取 选项 类 型 的 长 度 
1213-1229 代码 遍历 TCP 首 部 选项 ， 过 到 EOL( 选 项 终止 ) 时 终止 循环 ， 函 数 返 回 ， 过 到 
NOP 时 ， 将 其 长 度 置 为 1， 因 为 它 后 面 不 带 长 度 字 段 ( 图 26-16)， 控 制 转 到 switch 语 句 的 
default 子 句 ， 对 其 不 做 处 理 。 

1230-1234 所 有 其 他 选项 的 长 度 保 存在 optlen 中 。 

所 有 新 增 的 Net/3 不 支持 的 TCP 选 项 都 被 忽略 。 这 是 因为 : 

1) 将 来 定义 的 所 有 新 选项 都 将 带 有 长 度 字段 (NOP 和 EOL 是 仅 有 的 两 个 不 带 长 度 字 段 的 选 
项 )， 而 for 语 句 的 每 次 循环 都 跳 过 optlen 字 市 。 

2) switch 语 句 的 default 子 名 忽略 所 有 未 知 选项 。 

图 28-10 给 出 了 tcp_dooptions 最 后 一 部 分 的 代码 ， 处 理 MSS、 窗 口 大 小 和 时 间 稚 
选项 。 
2. MSS 选 项 
1238-1246 如果 长 度 不 等 于 4(TCPOLEN MAXSEG)， 或 者 报 文 段 不 带 SYN 标 志 ， 则 忽略 该 
选项 。 否则 ， 复 制 两 个 MSS 字 市 到 本 地 变量 ， 转 换 为 主机 字 市 序 ， 调 用 tcp_mss 完 成 处 理 。 
tcp_mss 负 责 更 新 TCP 控 制 块 中 的 变量 t_maxseg， 即 发 向 对 端的 报 文 段 中 允许 携带 的 最 大 
FHR. 

3. 窗口 大 小 选项 
1247-1254 如 果 长 度 不 等 于 4(TCPOLEN WINDOW)， 或 者 报 文 段 不 带 SYN 标 志 ， 则 忽略 该 
选项 。Net/3 置 位 TF RCVD SCALE, 说 明 收 到 了 一 个 窗口 大 小 选项 请 求 ， 并 在 
requested_s_scale 中 保存 缩放 因子 。 由 于 cp[2] 只 有 一 个 字 方 ， 因 此 ， 不 存在 边界 问题 。 
当 连 接 转 移 到 ESTABLISHED 状 态 时 ， 如 果 连 接 双 方 都 同意 支持 窗口 大 小 选项 ， 则 使 用 这 一 
功能 。 

4. 时 间 截 选项 
1255-1273 如 果 长 度 不 等 于 10(TCPOLEN _ TIMESTRMP)， 则 忽略 该 选项 。 人 否则 ， 
ts_present 指 向 的 标志 被 置 位 1， 两 个 时 间 惟 值 分 别 保存 在 ts_val 和 ts_ecr 所 指向 的 变 
量 中 。 如 果 收 到 的 报 文 段 带 有 SYN 标 志 ，Net/3 置 位 TF RCVD TSTMP, 说 明 收 到 了 一 个 时 间 
AWAK., ts recentA TKE HEX, ts recent aget Ttcp now, MS 
到 目前 的 时 间 ， 以 500ms 滴 答 为 单位 。 


£283 TCP 的 输入 747 


1238 case TCPOPT MAXSEG: Hop 

1239 if (optlen !- TCPOLEN MAXSEG) 

1240 continue; 

1241 if (!(ti-»ti. flags & TH. SYN)) 

1242 continue; 

1243 bcopy((char *) cp + 2, (char *) &mss, sizeof(mss)); 

1244 NTOHS (mss) ; 

1245 (void) tcp mss(tp, mss); /* sets t maxseg */ 

1246 break; 

1247 case TCPOPT. WINDOW: 

1248 if (optlen !- TCPOLEN. WINDOW) 

1249 continue; 

1250 if (1(ti-»ti. flags & TH SYN)) 

1251 continue; 

1252 tp-»t flags | TF. RCVD. SCALE; 

1253 tp-»requested s scale = min(cp[2], TCP MAX WINSHIFT); 

1254 break; 

1255 case TCPOPT_TIMESTAMP: 

1256 if (optlen !- TCPOLEN. TIMESTAMP) 

1257 continue; 

1258 *ts present - 1; 

1259 bcopy((char *) cp + 2, (char *) ts val, sizeof(*ts val)); 

1260 NTOHL(*ts val); 

1261 bcopy((char *) cp + 6, (char *) ts ecr, sizeof(*ts ecr)); 

1262 NTOHL(*ts, ecr); 

1263 jf 

1264 * A timestamp received in a SYN makes 

1265 * it ok to send timestamp requests and replies. 

1266 er 

1267 if (ti-»ti flags & TH SYN) ( 

1268 tp-»t, flags |= TF RCVD TSTMP; 

1269 tp-»ts, recent = *ts val; 

1270 tp-»ts, recent age = tcp now; 

I2 ) 

1272 break; 

1273 ) 

1274 ) 

1275 } E 
tcp input.c 


图 28-10 tcp_dooptions 函 数 : AbEEMSS, fp] SUUM LB] CER 


28.4 首部 预测 


下 面 接着 图 28-8 中 的 代码 ， 继 续 介 绍 上 cpP_input 力 数 。 

首部 预测 最 初 由 Van Jacobson 提 出 ， 出 现在 4.3BSD Reno 版 中 。 除 了 下 面 要 讨论 的 代码 外 ， 
只 有 [Jacobson 1990b] 还 介绍 过 该 算法 ， 核 心 内 容 来 自 3 张 给 出 实现 代码 的 幻灯 片 。 

首部 预测 算法 通过 处 理 两 种 常见 现象 ， 简 化 单 向 数据 传输 的 实现 。 

1) 如 果 TCP 发 送 数据 ， 连 接 上 等 待 接收 的 下 一 个 报 文 段 是 对 已 发 送 数据 的 ACK。 

2) 如 果 TCP 接 收 数据 ， 连 接 上 等 待 接收 的 下 一 个 报 文 段 是 顺序 到 达 的 数据 报 文 段 。 

两 种 情况 下 ， 通 过 若干 测试 ， 判 定 收 到 的 报 文 段 是 否 是 等 待 接收 的 报 文 段 。 如 果 是 ， 则 
立即 处 理 ， 比 起 本 章 接 下 来 和 下 一 章 介绍 的 通用 处 理 要 快 得 多 。 
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[Partridge 1993] 介 绍 了 一 种 基于 Van Jacobson 的 研究 成 果 ， 速 度 更 快 的 TCP 首 部 
预测 算法 实现 。 


图 28-11 给 出 了 首部 预测 的 第 一 部 分 代码 。 


z tcp input.c 

348 * Header prediction: check for the two common cases 

349 * of a uni-directional data xfer. If the packet has 

350 * no control flags, is in-sequence, the window didn't 

351 * change and we're not retransmitting, it's a 

352 * candidate. If the length is zero and the ack moved 

353 * forward, we're the sender side of the xfer. Just 

354 * free the data acked & wake any higher-level process 

355 * that was blocked waiting for space. If the length 

356 * is non-zero and the ack didn't move, we're the 

357 * receiver side. If we're getting packets in order 

358 * (the reassembly queue is empty), add the data to 

359 * the socket buffer and note that we need a delayed ack. 

360 */ 

361 if (tp-»t state == TCPS ESTABLISHED && 

362 (tiflags & (TH SYN | TH FIN | TH RST | TH URG | TH ACK)) == TH ACK && 

363 (!ts present || TSTMP GEQ(ts val, tp-»ts recent)) && 

364 ti-»ti seq == tp-»rcv nxt && 

365 tiwin && tiwin -- tp-»snd wnd && 

366 tp-»snd nxt == tp-»snd max) ( 

367 y* 

368 * If last ACK falls within this segment's sequence numbers, 

369 * record the timestamp. 

370 罗芳 

ST if (ts present && SEQ LEQ(ti-»ti seq, tp-»last ack sent) && 

3T2 SEQ LT(tp-»last ack sent, ti-»ti seq + ti-»ti len)) ( 

373 tp-»ts recent age = tcp now; 

374 tp-»ts recent = ts val; 

375 ) : 
tcp input.c 


图 28-11 tcp inputrAZk: 首部 预测 ， 第 一 部 分 


1. 判定 收 到 的 报 文 段 是 否 是 等 待 接收 的 报 文 段 
347-366 下 列 6 个 条 件 必 须 全 真 ， 才 能 说 明 收 到 的 报 文 段 是 连接 正 等 待 接收 的 数据 报 文 段 或 
ACK 报 文 段 : 

1) 连接 状态 等 于 ESTABLISHED 。 

2) 下 列 4 个 控制 标志 必须 不 设 定 : SYN、FIN、RST 或 URG。 但 ACK 标 志 必 须 置 位 。 换 言 
之 ，TCP 的 6 个 控制 标志 中 ，ACK 标 志 必 须 置 位 ， 前 面 列 出 的 4 个 标志 必须 清除 ，PSH 标 志 置 
位 与 否 无 关 紧 要 (连接 处 于 ESTABLISHED 状 态 时 ， 除 非 RST 标 志 置 位 ， 一 般 情 况 下 ，ACK 都 
会 置 位 )。 

3) 如 果 报 文 段 带 有 时 间 戳 选项， 则 最 新 时 间 戳 值 (ts_val) 必 须 大 于 或 等 于 连接 上 以 前 收 
到 的 时 间 戳 值 (ts_recent)。 本 质 上 说 ， 这 就 是 PAWS 测 试 ，28.7 节 将 详细 介绍 PAWS。 如 果 
ts_Vval 小 于 ts_recent， 则 新 报 文 段 是 乱 序 报 文 段 ， 因 为 它 的 发 送 时 间 早 于 连接 上 收 到 的 
上 一 个 报 文 段 。 由 于 对 端 通常 把 时 钟 值 填充 到 时 间 惟 字段 (Net3 的 全 局 变量 tcp_now)， 收 到 
的 时 间 惟 正常 情况 下 应 该 是 一 个 单调 递增 的 序列 。 

并 非 每 个 顺序 到 达 报 文 段 中 的 时 间 戳 都 会 增加 。 事 实 上 ，Net3 系 统 每 500 ms 增加 一 次 时 
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钟 值 tcp_now)， 在 这 段 时 间 间 隔 中 ， 完 全 可 能 发 送 多 个 报 文 段 。 假 定 利 用 时 间 惟 和 序号 构 
成 一 个 64 位 的 数值 ， 序 号 放 在 低 32 位 ， 时 间 戳 放 在 高 32 位 ， 对 于 每 个 顺序 报 文 段 ， 这 个 64 位 
的 值 都 至 少 会 增加 1( 应 考虑 取 模 算法 )。 

4) 报 文 段 的 起 始 序 号 (ti_seq) 必 须 等 于 连接 上 等 待 接收 的 下 一 个 序号 (rcv_nxt)。 如 果 
这 个 条 件 为 假 ， 那 么 收 到 的 报 文 段 是 重 传 报 文 段 或 是 乱 序 报 文 段 。 

5) 报 文 段 通告 的 窗口 大 小 必须 非 零 (tiwin)， 必 须 等 于 当前 发 送 窗 口 (snd_wnd)。 也 束 
是 说 ， 无 须 更 新 当前 发 送 窗 口 。 

6) 下 一 个 发 送 序号 (snd_nxt) 必 须 等 于 已 发 送 的 最 大 序号 (snd_max)， 也 就 是 说 ， 上 一 
个 发 送 报 文 段 不 是 重 传 报 文 段 。 

2. 根据 接收 的 时 间 截 更 新 te_recent 
367-375 如 果 存 在 时 间 戳 选项， 并 且 时 间 戳 值 满 足 图 26-18 中 的 测试 条 件 ， 则 把 收 到 的 时 间 
惟 值 (ts_val) 赋 给 ts recent, Jfftts recent age 中 保存 当前 时 钟 (tcp_now)。 

前 面 讨 论 过 图 26-18 中 的 时 间 稚 有 效 性 测试 条 件 所 存在 的 问题 ， 并 在 图 26-20 中 给 
出 了 正确 的 测试 条 件 。 但 在 首部 预测 算法 的 实现 中 ， 图 26-20 中 的 TSTMP_GEQ 测 试 
是 多 余 的 ， 因 为 图 28-11 起 始 处 的 1f 语 名 已 完成 了 这 一 测试 。 


图 28-12 给 出 了 首部 预测 的 下 一 部 分 代码 ， 用 于 单 向 数据 的 发 送 方 : 处 理 输出 数据 的 
ACK, 


376 lif (ti-»ELtil len == 0) ( ERN iai 
377 if (SEQ GT(ti-»ti ack, tp-»snd una) && 

378 SEQ.LEQ(ti-»ti ack, tp-»snd max) && 

379 tp-»snd cwnd >= tp-»snd wnd) ( 

380 y* 

381 * this is a pure ack for outstanding data. 
382 si i 

383 --rtcpstat.tcps predack; 

384 if (ts present) 

385 tcp »xmit, timer(tp, tcp now = ts ecr + 1); 
386 else if (tp-»t rtt && 

387 SEQ GT(ti-»ti ack, tp-»t rtseq)) 

388 tcp xmit timer(tp, tp-»t rtt); 

389 acked = ti-»ti ack - tp-»snd una; 

390 tcpstat.tcps rcvackpack-4-«; 

391 tcpstat.tcps rcvackbyte += acked; 

392 sbdrop(&so-»so snd, acked); 

393 tp-»snd una = ti-»ti ack; 

394 m freem(m); 

395 J^ 

396 * If all outstanding data is acked, stop 
397 * retransmit timer, otherwise restart timer 
398 * using current (possibly backed-off) value. 
399 * If process is waiting for space, 

400 * wakeup/selwakeup/signal. If data 

401 * is ready to send, let tcp output 

402 * decide between more output or persist. 

403 =y 

404 if (tp->snd_una == tp->snd_max) 

405 tp->t_timer[TCPT_REXMT] = 0; 


图 28-12 tcp inputrAZ&k: 首部 预测 ， 发 送 方 处 理 
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406 else if (tp->t_timer[TCPT_PERSIST] == 0) 

407 tp->t_timer[TCPT_REXMT] = tp-»t rxtcur; 

408 if (so->so_snd.sb_flags & SB_NOTIFY) 

409 sowwakeup (so); 

410 if (so-»so snd.sb cc) 

411 (void) tcp output (tp); 

412 return; 

413 ) ; 

tcp input.c 
图 28-12 (£x) 
3. 纯 ACK 测 试 


376-379 如 果 下 列 4 个 条 件 全 真 ， 则 收 到 的 是 一 个 纯 ACK 报 文 段 。 

1) 报 文 段 不 携带 数据 (ti_1len 等 于 0)。 

2) 报 文 段 的 确认 字段 (ti_ack) 大 于 最 大 的 未 确认 序号 (snd_una)。 由 于 测试 条 件 是 “大 
于 ”， 而 非 “ 大 于 等 于 ”， 也 就 是 要 求 收 到 的 ACK 必 须 确认 未 曾 确 认 过 的 数据 。 

3) 报 文 段 的 确认 字段 (ti_ack) 小 于 等 于 已 发 送 的 最 大 序号 (snd_max)。 

4) 拥塞 窗口 大 于 等 于 当前 发 送 窗口 (snd_wnd)， 要 求 窗口 完全 打开 ， 连 接 不 处 于 慢 起 动 

4. 更 新 RTT 值 
384-388 如 果 报 文 段 携带 时 间 惟 选项 ， 或 者 报 文 段 中 的 确认 序号 大 于 茶 个 计时 报 文 段 的 起 
始 序 号 ， 则 调用 tcp xmit timer 更 新 RTT 值 。 

S. MUR AER EPI RS CR AIF 
389-394 acked 等 于 接收 报 文 段 确认 字段 所 确认 的 字 市 数 ， 调 用 sbdrop 从 发 送 缓存 中 删 
除 这 些 字 市 。 更 新 最 大 的 未 确认 过 的 序号 (snd_una) 为 报 文 段 的 确认 字段 值 ， 释 放 保 存 接 收 
报 文 段 的 mbuf 链 表 ( 由 于 数据 长 度 等 于 0， 实 际 只 有 一 个 保存 首部 的 mbuf)。 

6. 终止 重 传 定时 器 
395-407 如 果 接 收报 文 段 确认 了 所 有 已 发 送 数据 (snd_una 等 于 snd_max)， 则 关闭 重 传 定 
时 器 。 若 条 件 不 满足 ， 且 持续 定时 器 未 设 定 ， 则 重启 重 传 定时 右 ， 时 限 设 为 t_rxtcuz。 

前 面 介绍 过 ，tcp_output 发 送 报 文 段 时 ， 只 有 重 传 定时 器 未 启动 ， 才 会 设 定 它 。 如 果 
连续 发 送 两 个 报 文 段 ， 发 送 第 一 个 报 文 段 时 定时 恬 启 动 ， 发 送 第 二 个 报 文 段 时 定时 磺 不 变 。 
但 如 果 只 收 到 第 一 个 报 文 段 的 确认 ， 则 重 传 定 时 如 必须 重启 ， 防 止 第 二 个 报 文 段 丢 失 。 

7. 唤醒 等 待 进程 
408-409 如果 发 送 缓存 修改 后 ， 有 必要 唤醒 等 待 的 应 用 进程 ， 则 调用 sowwakeup。 从 图 
16-5$ 可 知 ， 如 果 有 应 用 进程 正在 等 待 缓存 空间 ， 或 者 设 定 了 与 缓存 有 关 的 select 选 项 ， 或 者 
正 等 待 插口 上 的 SIGIO， 则 SB_NOTIEFY 为 真 。 

8. 生成 更 多 的 输出 
410-411 如 果 发 送 缓存 中 有 数据 ， 则 调用 tcp_output， 因 为 发 送 窗 口 已 经 同 右 移动 。 
snd_una 已 增加 , 但 snd_wnd 未 变化 ， 因 此 ， 图 24-17 中 的 整个 窗口 将 向 右 移动 。 

图 28-13 给 出 了 首部 预测 的 下 一 部 分 代码 ， 接 收 方 收 到 顺序 到 达 的 数据 时 进行 的 各 种 
处 理 。 
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9. 测试 收 到 报 文 段 是 否 是 连接 等 待 接收 的 下 一 个 报 文 段 
414-416 如 果 下 列 4 个 条 件 均 为 真 ， 则 收 到 的 报 文 段 是 连接 上 等 待 接收 的 下 一 报 文 段 ， 并 且 
插口 缓存 中 的 剩余 空间 能 够 容纳 到 达 的 数据 ，。 

1) 报 文 段 的 数据 量 (ti_len) 大 于 0， 即 图 28-12 起 始 处 if 语 句 的 else 子 句 。 

2) 确认 字段 (ti_ack) 等 于 最 大 的 未 确认 序号 ， 即 报 文 段 未 确认 任何 数据 。 

3) 连接 乱 序 报 文 段 的 重组 队列 为 空 (seq_next 等 于 tp)。 

4) 接收 缓存 能 够 容纳 报 文 段 数据 。 

10. 完成 接收 数据 的 处 理 
423-435 等待 接 收 序号 (rcv_nxt) 递 增收 到 的 数据 字 市 数 。 从 mbuf 链 中 丢弃 IP 首 部 、TCP 
首部 和 所 有 TCP 选 项 ， 将 剩余 的 mbuf 链 附加 到 插口 的 接收 缓存 ， 调 用 sorwakeup 唤 醒 接 收 进 
程 。 注 意 ， 代 码 没 有 调用 TCP_REASS 宏 ， 因 为 宏 代 码 中 的 条 件 判 定 已 经 包含 在 首部 预测 的 济 
试 条 件 中 。 设 定 延 迟 ACK 标 志 ， 输 入 处 理 结束 。 


tcp input.c 
414 ) else if (ti-»ti ack == tp-»snd una && 
415 tp-»seg next == (struct tcpiphdr *) tp && 
416 ti-»ti len <= sbspace(&so-»so rcv)) { 
417 y" 
418 * this is a pure, in-sequence data packet 
419 * with nothing on the reassembly queue and 
.420 * we have enough buffer space to take it. 
421 *y 
422 -*tcpstat.tcps preddat; 
423 tp-»rcv nxt += ti-»ti len; 
424 tcpstat.tcps rcvpack-s-*; 
425 tcpstat.tcps rcvbyte += ti-»ti len; 
426 J> 
427 * Drop TCP, IP headers and TCP options then add data 
428 * to socket buffer. 
429 wf 
430 m->m_data += sizeof(struct tcpiphdr) + off - sizeof (struct tcphdr); 
431 m-»m len -= sizeof (struct tcpiphdr) + off - sizeof(struct tcphdr); 
432 sbappend(&so-»so rcv, m); 
433 sorwakeup(so); 
434 tp-»t flags |= TF DELACK; 
435 return; 
436 ) 
437 ) 

tcp input.c 
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统计 量 


首部 预测 能 在 多 大 程度 上 改善 系统 性 能 ?让 我 们 做 个 简单 的 实验 ， 跨 越 LAN(bdsi 和 
svr4 则 的 双 癌 通信 ) 的 数据 传输 ， 以 及 跨越 WAN(vangogh.cs.berkeley.edu 和 
ftp.uu.net 之 则 的 双向 通信 ) 的 数据 传输 。 运 行 hetstat， 得 到 类 似 于 图 24-5 的 输出 ， 列 出 
了 两 种 情况 下 的 首部 预测 寄存 絮 的 值 。 

跨越 LAN 传 输 时 ， 无 数据 分 组 丢失 ， 只 有 一 些 重复 的 ACK。 利 用 首部 预测 处 理 的 报 文 段 
可 占 到 97%~100%。 跨 越 WAN 时 ， 比 例 有 所 降低 ， 约 为 83%~99% 之 间 。 

请 注意 ， 首 部 预测 的 应 用 限定 于 单独 的 连接 ， 无 论 主机 是 否 收 到 了 额外 的 TCP 流 量 ，PCB 
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缓存 必须 在 主机 范围 内 共享 。 即 使 TCP 流 量 的 丢失 造成 了 PCB 缓 存 缺失 ， 但 如 果 给 定 连接 上 
的 数据 分 组 未 丢失 ， 这 条 连接 上 的 首部 预测 仍 能 工作 。 
28.5 TCP 输 入 : 缓慢 的 执行 路 径 


下 面 讨论 首 部 预测 失败 时 的 处 理 代码 ，tcp_input 中 较 慢 的 一 条 执行 路 丛 。 图 28-14 给 
出 了 下 一 部 分 代码 ， 为 输入 报 文 段 的 处 理 完 成 一 些 准 备 工作 ，。 


mm » tcp input.c 
439 * Drop TCP, IP headers and TCP options. 
440 ey 
441 m-»m data += sizeof(struct tcpiphdr) + off - sizeof(struct tcphdr); 
442 m-»m len -= sizeof(struct tcpiphdr) + off - sizeof(struct tcphdr); 
443 p% 
444 * Calculate amount of space in receive window, 
445 * and then do TCP input processing. 
446 * Receive window is amount of space in rcv queue, 
447 * but not less than advertised window. 
448 wy 
449 { 
450 int win; 
451 win - sbspace(&so-»so rcv); 
452 if (win « O0) 
453 win s 0; 
454 tp-»rcv wnd = max(win, (int) (tp-»rcv adv - tp-»rcv nxt)); 
455 ) 
tcp input.c 


图 28-14 tcp input 国 数 : 丢弃 IP 和 TCP 首 部 


1. 丢弃 IP 和 TCP 首 部 ， 包 括 TCP 选 项 
438-442 更 新 数据 指针 和 mbuf 链 表 中 的 第 一 个 mbuf 的 长 度 ， 以 跳 过 IP 首 部 、TCP 首 部 和 所 
有 TCP 选 项 。 因 为 of£ 等 于 TCP 首 部 长 度 ， 包 括 TCP 选 项 ， 因 此 ， 表 达 式 中 减 去 了 标准 TCP 首 
部 的 大 小 (20 字 市 )。 

2. 计算 接收 窗口 
443-455 win 等 于 插口 接收 缓存 中 可 用 的 字 节 数 ，rcv_adv 减 去 rcv_nxt 等 于 当前 通告 的 
窗口 大 小 ， 接 收 窗口 等 于 上 述 两 个 值 中 较 大 的 一 个 ， 这 是 为 了 保证 接收 窗口 不 小 于 当前 通告 
窗口 的 大 小 。 此 外 ， 如 果 最 后 一 次 窗口 更 新 后 ， 应 用 进程 从 插口 接收 缓存 中 取 走 了 数据 ， 
win 可 能 大 于 通告 窗口 ， 因 此 ，TCP 最 多 能 够 接收 win 字 市 的 数据 (即使 对 端 不 会 发 送 超 过 通 
告 窗口 大 小 的 数据 )。 

因为 函数 后 面 的 代码 必须 确定 通告 窗口 中 能 放 入 多 少数 据 ( 如 果 有 )， 所 以 现在 必须 计算 通 
告 窗口 的 大 小 。 落 在 通告 窗口 之 外 的 接收 数据 被 丢弃 : 落 在 窗口 左 侧 的 数据 是 已 接收 并 确认 
过 的 数据 ， 落 在 窗口 右 侧 的 数据 是 暂 不 允许 对 端 发 送 的 数据 。 


28.6 完成 被 动 打 开 或 主动 打开 


如 果 连 接 状 态 等 于 LISTEN 或 者 SYN_SENT， 则 执行 本 节 给 出 的 代码 。 连 接 处 于 这 两 个 状 
态 时 ， 等 待 接收 的 报 文 段 为 SYN， 任 何其 他 报 文 段 将 被 丢弃 。 
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28.6.1 完成 被 动 打开 


连接 状态 等 于 LISTEN 时 ， 执 行 图 28-15 中 的 代码 ， 其 中 变量 tp 和 inp 指 向 图 28-7 所 创建 
的 新 的 插口 ， 而 非 服 务 器 的 监听 插口 。 


tcp input.c 
456 switch (tp-»t state) ( 
457 p^ 
458 * If the state is LISTEN then ignore segment if it contains an RST. 
459 * If the segment contains an ACK then it is bad and send an RST. 
460 * If it does not contain a SYN then it is not interesting; drop it. 
461 * Don't bother responding if the destination was a broadcast. 
462 * Otherwise initialize tp-»rcv nxt, and tp-»irs, select an initial 
463 * tp-»iss, and send a segment: 
464 " «SEQ-ISS»«ACK-RCV NXT»«CTL-SYN,ACK» 
465 * Also initialize tp-»snd nxt to tp-»iss«1 and tp-»snd una to tp-»iss 
466 * Fill in remote peer address fields if not previously specified. 
467 * Enter SYN RECEIVED state, and process any other fields of this 
468 * segment in this state. 
469 xi d 
470 case TCPS, LISTEN:( 
471 struct mbuf *am; 
472 struct sockaddr in *sin; 
473 if (tiflags & TH RST) 
474 goto drop; 
475 if (tiflags & TH ACK) 
476 goto dropwithreset; 
477 if ((tiflags & TH. SYN) ss 0) 
478 goto drop; 


tcp input.c 


图 28-15 tcp_input 函 数 : 检测 监听 插口 上 是 否 收 到 了 SYN 


1. 丢弃 RST、ACK 或 非 SYN 
473-478 如果 接 收报 文 段 中 带 有 RST 标 志 ， 则 丢弃 它 。 如 果 带 有 ACK， 则 丢弃 它 并 发 送 
RST 作 为 啊 应 (建立 连接 的 最 初 的 SYN 报 文 段 是 少数 几 个 不 允许 携带 ACK 的 报 文 段 之 一 )。 如 果 
未 带 有 SYN， 则 丢弃 它 。case 子 句 的 后 续 代 码 处 理 连 接 处 于 LISTEN 状 态 时 收 到 了 SYN 的 状 
况 。 新 的 连接 状态 等 于 SYN_RCVD。 

图 28-16 给 出 了 case 语 句 接 下 来 的 代码 。 


"m " tcp input.c 
480 * RFC1122 4.2.3.10, p. 104: discard bcast/mcast SYN 

481 * in broadcast() should never return true on a received 
482 * packet with M BCAST not set. 

483 al À 

484 if (m-»m flags & (M BCAST | M MCAST) || 

485 IN MULTICAST(ti-»ti dst.s addr)) 

486 goto drop; 

487 am = m get (M DONTWAIT, MT SONAME); /* XXX */ 

488 if (am == NULL) 

489 goto drop; 

490 am-»m len = sizeof(struct sockaddr. in); 
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491 sin = mtod(am, struct sockaddr in *); 

492 Ssin-»sin, family = AF INET; 

493 sin-»sin len = sizeof(*sin); 

494 sin-»sin, addr - ti-»ti src; 

495 sin-»sin port - ti-»ti sport; 

496 bzero((caddr t) sin-»sin zero, sizeof(sin-»sin, zero)); 

497 laddr = inp-»inp laddr; 

498 if (inp-»inp laddr.s, addr == INADDR, ANY) 

499 inp-»inp laddr = ti-»ti dst; 

500 if (in pcbconnect(inp, am)) ( 

501 inp-»inp. laddr = laddr; 

502 (void) m free(am); 

503 goto drop; 

504 ) 

505 (void) m free(am); 

tcp input.c 

28-16 (£X) 


2. 如 果 是 广播 报 文 段 或 多 播报 文 段 ， 则 丢弃 它 
479-486 ”如果 数据 报 被 发 送 到 广播 地 址 或 多 播 地 址 ， 则 丢弃 它 ，TCP 只 支持 点 到 点 的 应 用 。 
前 面 介绍 过 ， 根 据 数 据 帧 携带 的 目的 硬件 地 址 ，ether_input 置 位 M_BCAST 和 M_MCAST 标 
志 ，IN_MULTICAST 宏 可 判定 IP 地 址 是 否 为 D 类 地 址 。 


注释 引用 了 in broadcast, 因为 Net/1 代 码 ( 它 不 支持 多 播 ) 在 此 处 调用 了 这 个 
函数 ， 以 检测 目的 IP 地 址 是 否 为 广播 地 址 。Net/2 中 改 为 根据 目的 硬件 地 址 ， 通 过 
ether input 设 定 M BCRAST 和 M_MCRAST 标 志 。 

Net/3 只 测试 目的 硬件 地 址 是 否 为 广播 地 址 ， 而 且 不 调用 in_broadcast 测 试 目 
的 IP 地 址 是 否 为 广播 地 址 。 它 假定 除非 目的 硬件 地 址 是 广播 地 址 ， 否 则 ， 目 的 IP 地 址 
绝 不 可 能 是 广播 地 址 ， 从 而 避免 调用 in broadcast。 另 外 ， 如 果 Net/3 真 的 收 到 了 
一 个 数据 帧 ， 其 目的 硬件 地 址 为 单 播 地 址 ， 而 目的 IP 地 址 为 广播 地 址 ， 将 执行 图 28- 
16 中 的 代码 处 理 此 种 报 文 段 。 

目的 地 址 参数 IN MULTICAST 需 要 被 转换 为 主机 字 节 序 。 


3. 为 客户 端的 IP 地 址 和 端口 号 分 配 mbuf 
487-496 分 配 一 个 mbuf, 保存 sockaddr_in 结 构 ， 其 中 带 有 客户 问 的 IP 地 址 和 端口 号 。 
IP 地 址 从 IP 首 部 的 源 地 址 字段 中 复制 ， 端 口号 从 TCP 首 部 的 源 端 口号 字段 中 复制 。 这 个 结构 用 
于 把 服务 器 的 PCB 连 到 客户 ， 之 后 mbuf 被 释放 。 


注释 中 的 “XXX”， 是 因为 获取 mbuf 的 消耗 等 同 于 之 后 调用 in pcbconnect 的 
消耗 。 不 过 此 处 的 代码 位 于 cp_input 中 较 慢 的 一 条 执行 路 径 。 从 图 24-5 可 知 ， 不 
足 92 的 接收 报 文 段 的 处 理 中 会 用 到 这 段 处 理 代码 。 
4. 设 定 PCB 中 的 本 地 地 址 
497-499 laddr 是 绑 定 在 播 口上 的 本 地 地 址 。 如 果 服 务 右 没有 为 插口 绑 定 一 个 确定 地 址 ( 正 
常情 况 下 )，IP 首 部 的 目的 地 址 将 成 为 PCB 中 的 本 地 地 址 。 注 意 ， 不 管 数 据 报 是 在 哪个 端口 收 
到 的 ， 都 将 保存 IP 首 部 中 的 目的 地 址 。 
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5. 填充 PCB 中 的 对 端 地 址 
500-505 调用 in_pcbconnect， 把 服务 器 的 PCB 与 客户 相连 ， 填 充 PCB 中 的 对 端 地 址 和 
XP. Zn. fElkmbuf, 
图 28-17 给 出 了 函数 下 一 部 分 的 代码 ， 结 束 case 语 句 的 处 理 。 


tcp_input.c 

506 tp->t_template = tcp template(tp); 

507 if (tp->t_template == 0) ( 

508 tp - tcp drop(tp, ENOBUFS); 

509 dropsocket - 0; /* socket is already gone */ 

510 goto drop; 

511 ) 

312 if (optp) 

513 tcp dooptions(tp, optp, optlen, ti, 

514 &ts present, &ts val, &ts ecr); 

515 if (iss) 

516 tp-»iss - iss; 

517 else 

518 tp-»iss = tcp iss; 

519 tcp issg += TCP ISSINCA / 2:; 

520 tp-»irs = ti-»ti. seq; 

521 tcp. sendseqinit (tp); 

522 tcp. rcvseqinit (tp); 

523 tp-»t flags |= TF ACKNOW; 

524 tp-»t state = TCPS SYN RECEIVED; 

525 tp->t_timer[TCPT_KEEP] = TCPTV_KEEP_INIT; 

526 dropsocket = 0; /* committed to socket */ 

52 7 tcpstat.tcps accepts-«-; 

528 goto trimthenstep6; 

529 ) . 
tcp_input.c 


图 28-17 tcp input 函 数 : 完成 LISTEN 状 态 下 收 到 SYN 报 文 段 的 处 理 


6. 分 配 并 初始 化 IP 和 TCP 首 部 模板 
506-511 调用 tcp template 创 建 [P 和 和 TCP 首部 的 模板 。 图 28-7 中 调用 sonewconn 时 ， 为 
新 连接 分 配 了 PCB 和 和 TCP 控制 块 ， 但 未 分 配 首部 模板 。 

7. 处 理 所 有 的 TCP 选 项 
512-514 如 果 存 在 TCP 选 项 ， 则 调用 tcp_dooptions 进 行 处 理 。 图 28-8 中 曾 调用 过 一 次 
tcp dooptions, 但 只 处 理 非 LISTEN 状 态 时 的 TCP 选 项 。 现 在 ,插口 处 于 监听 状态 ，PCB 
中 的 对 端 地 址 已 填 人 (tcp_mss 国 数 中 会 用 到 对 端 地 址 )， 调 用 cp_aooptions: 获取 到 达 
对 端的 路 由 ， 查 看 对 端 主机 是 本 地 结 点 还 是 远 端 结 点 (选择 MSS 时 ， 需 考虑 到 对 端的 网 络 ID 和 
子 网 ID)。 

8. 初始 化 ISS 
515-519 通常 情况 下 ， 初 始 发 送 序号 复制 自 全 局 变量 tcp_iss， 之 后 增加 64 000 
(TCP_ISSINCR 除 以 2)。 如 果 局 部 变量 iss 非 零 ， 则 使 用 iss 取 代 tcp_iss， 初始 化 连接 的 
发 送 序 号 。 

出 现 以 下 事件 序列 时 ， 会 用 到 iss: 
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。 服务 器 的 IP 地 址 为 128.1.2.3， 端 口号 为 27。 

* IP 地 址 等 于 192.3.4.5 的 客户 与 前 述 服务 器 建立 了 连接 ， 客 户 端口 号 等 于 3000。 服 务 器 的 
插口 对 为 {128.1.2.3, 27, 192.3.4.5, 3000], 

* 服务 器 主动 关闭 了 连接 ， 上 述 插口 对 的 状态 转移 到 TIME_WAIT。 连 接 处 于 这 种 状态 时 ， 
最 后 收 到 的 序号 保存 在 TCP 控 制 块 中 。 假 设 序号 等 于 100 000, 

。 连 接 离开 TIME_WAIT 状 态 之 前 ， 收 到 来 自 同 一 客户 主机 、 同 一 端口 号 (192.3.4.5, 3000) 
的 新 的 SYN ，TCP 寻 找 处 于 TIME_WAIT 状 态 的 连接 所 对 应 的 PCB ， 而 不 是 监听 服务 器 
的 PCB 。 假 定 新 SYN 报 文 段 的 序号 等 于 200 000, 

。 因 为 连接 状态 不 等 于 LISTEN ， 所 以 将 不 执行 刚 讨 论 过 的 图 28-17 中 的 代码 ， 而 是 执行 图 
28-28 中 的 代码 。 我 们 将 看 到 ， 其 中 包含 了 下 列 处 理 逻 辑 : 如 果 新 SYN 报 文 段 的 序号 
(200 000) 大 于 客户 最 后 发 来 的 序号 (100 000)， 那 么 : (1) 局 部 变量 iss 等 于 100 000 加 上 
128 000，(2) 处 于 TIME_WAIT 状 态 的 连接 被 完全 关闭 (PCB 和 TCP 控 制 块 被 删除 )，(3) 控 
制 跳 转 到 findpcb( 图 28-5)。 

。 寻 找 服务 器 监听 插口 的 PCB( 假 定 监听 服务 器 还 在 运行 )， 执 行 本 节 中 介绍 的 代码 。 图 28- 
17 中 的 代码 将 使 用 局 部 变量 iss( 现 在 等 于 228 000) 初 始 化 新 连接 的 tcp_iss。 

RFC 1122 中 定义 的 这 种 处 理 逻 辑 ， 人 允许 同一 个 客户 和 服务 器 重用 同样 的 插口 连接 对 ， 只 
要 服务 器 主动 关闭 原 有 连接 。 它 也 解释 了 为 什么 只 要 有 进程 调用 connect ， 全 局 变量 
tcp_iss 就 递增 54 000( 图 30-4): 为 了 确保 在 某 个 客户 不 断 地 重建 与 同一 个 服务 器 的 连接 的 情 
况 下 ， 即 使 前 一 次 连接 上 没有 传输 数据 ， 其 至 500 ms 定时 器 都 未 超时 (定时 器 超时 处 理 代码 会 
增加 tcp_iss)， 新 建 连接 仍 可 以 使 用 较 大 的 ISS。 

9. 初始 化 控制 块 中 的 序号 变量 
520-522 图 28-17 中 ， 初 始 接收 序号 复制 自 SYN 报 文 段 中 的 序号 字段 (ixzs)。 下 面 两 个 宏 初 
始 化 了 TCP 控 制 块 中 的 相关 变量 。 


#define tcp rcvseqinit(tp) \ 
(tp)-»rcv adv = (tp)-»rcv nxt = (tp)-»irs + 1 


4define tcp sendseqinit(tp) ^ 
(tp)-»snd una = (tp)-»snd nxt = (tp)-»snd max = (tp)-»snd up = \ 
(tp) -»iss 


因为 SYN 占 据 一 个 序号 ， 所 以 第 一 个 宏 表 达 式 需 加 1。 

10. 确认 SYN 并 更 新 状态 
523-525 因为 对 于 SYN 的 确认 必须 立即 发 送 ， 所 以 置 位 TF_ACKNOW 标 志 。 连 接 状 态 转 移 到 
SYN_RCVD， 连 接 建立 定时 器 设 为 75 秒 (TCPTV KEEP INIT)。 因 为 TF ACKNOW 置 位 ， 函 数 结束 时 
将 调用 tcp_output。 从 图 24-16 可 知 ， 此 种 tcp_outflags 会 导致 发 送 携带 SYN 和 ACK 的 报 文 段 。 
526-528 现在 ，TCP 结 束 了 从 图 28-7 开 始 的 新 插口 的 创建 ，drop 插 口 标志 被 清除 。 控 制 跳 
转 到 trimthenstep6 处 ， 完 成 SYN 报 文 段 的 处 理 。 前 面 介绍 过 ，SYN 报 文 段 能 够 携带 数据 ， 
尽管 只 有 等 连接 进入 ESTABLISHED 状 态 后 ， 数 据 才 会 被 提交 给 应 用 程序 。 


28.6.2 完成 主动 打开 
图 28-18 给 出 了 连接 进入 SYN_SENT 状 态 后 ， 处 理 代 码 的 第 一 部 分 。TCP 等 待 接收 SYN。 
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pa tcp input.c 
531 * If the state is SYN SENT: 

532 * if seg contains an ACK, but not for our SYN, drop the input. 
533 * if seg contains an RST, then drop the connection. 

534 * if seg does not contain SYN, then drop it. 

535 * Otherwise this is an acceptable SYN segment 

536 * initialize tp-»rcv nxt and tp-»irs 

537 * if seg contains ack then advance tp-»snd una 

538 * if SYN has been acked change to ESTABLISHED else SYN RCVD state 
539 * arrange for segment to be acked (eventually) 

540 * continue processing rest of data/controls, beginning with URG 
541 2*7 

542 case TCPS SYN SENT: 

543 if ((tiflags & TH ACK) && 

544 (SEQ LEQ(ti-»-ti ack, tp-»iss) || 

545 SEQ GT(ti-»ti ack, tp-»snd max))) 

546 goto dropwithreset; 

547 if (tiflags & TH RST) ( 

548 if (tiflags & TH ACK) 

549 tp = tcp drop(tp, ECONNREFUSED) ; 

550 goto drop; 

551 } 

552 if ((tiflags & TH_SYN) == 0) 

553 goto drop; 


tcp_input.c 
图 28-18 tcp_input Ht: 判定 收 到 的 SYN 是 否 是 所 需 的 啊 应 


1. 验证 收 到 的 ACK 
530-546 当 应 用 进程 主动 打开 ，TCP 发 送 SYN 时 ， 从 


图 30-4 可 知 ， 连 接 的 iss 将 等 于 全 局 变量 Ecp_iss， 安 SYN 366 367 


tcp_sendseqinit( 前 一 节 结尾 给 出 了 定义 ) 被 执行 。 à 4 
假设 ISS 等 于 365， 图 28-19 给 出 了 tcp output 发 送 SYN 
X snd una 365  snd nxt = 366 
后 的 发 送 序号 变量 。 snd up =365  snd max = 366 
1 103 Š TAANA > 
pop Pont 19 中 的 4 个 变量 为 图 28-19 ISS 等 于 365 的 SYN 发 送 后 
365， 接 着 图 26-31 中 的 代码 在 发 送 SYN 之 后 ， 把 其 中 两 的 发 送 序号 变量 


个 增 至 366。 因 此 ， 如 果 图 28-18 中 的 接收 报 文 段 包含 
ACK ， 并 且 确 认 字 段 小 于 等 于 iss(365)， 或 者 大 于 sndq_max(366)，ACK 无 效 ， 丢 弃 报 文 段 
并 发 送 RST 作 为 响应 。 注 意 ， 连 接 处 于 SYN_SENT 状 态 时 ， 收 到 的 报 文 段 中 无 须 携带 ACK。 
它 可 以 只 包括 SYN， 这 种 情况 称 为 同时 打开 (simultaneous open)( 图 24-15)。 

2. 处 理 并 丢弃 RST 报 文 段 
547-551 如果 接收 报 文 段 中 带 有 RST， 则 丢弃 它 。 但 首先 应 查看 ACK 标 志 ， 因 为 如 果 报 文 
段 同时 携带 了 有 效 的 ACK( 已 验证 过 ) 和 RST， 则 说 明 对 端 拒绝 本 次 连接 请 求 ， 通 常 是 因为 服务 
给 进程 未 运行 。 这 种 情况 下 ，tcp_dqrop 设 定 揪 口 的 so_erzozr 变 量 ， 并 回调 用 connect 的 
应 用 进程 返回 差错 。 

3. 判定 SYN 标 志 是 否 置 位 
552-553 如 果 收 到 报 文 段 中 的 SYN 标 志 未 置 位 ， 则 丢弃 它 。 

这 个 case 语 名 的 其 余 代 码 用 于 处 理 本 地 发 送 连接 请 求 后 ， 收 到 对 端 响应 的 SYN 报 文 段 
(及 可 选 的 ACK) 的 情况 。 图 28-20 给 出 了 tcp_input 下 一 部 分 的 代码 ， 继 续 处 理 SYN。 
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tcp input.c 
554 if (tiflags & TH ACK) ( 
555 tp-»snd una = ti->ti_ack; 
556 if (SEQ LT(tp-»snd nxt, tp-»snd una)) 
357 tp-»snd nxt - tp-»snd una; 
558 ) 
559 tp-»t timer[TCPT REXMT] = 0; 
560 tp-»irs = ti-»ti. seq; 
561 tcp rcvseqinit (tp); 
562 tp-»t flags |= TF. ACKNOW; 
563 if (tiflags & TH ACK && SEQ GT(tp-»snd una, tp-»iss)) ( 
564 tcpstat.tcps connects-«-*; 
565 soisconnected(so); 
566 tp-»t state = TCPS ESTABLISHED; 
567 /* Do window scaling on this connection? */ 
568 if ((tp-»t flags & (TF RCVD SCALE | TF REQ SCALE)) -- 
569 (TF RCVD SCALE | TF REQ SCALE)) ( 
570 tp-»snd scale = tp-»requested s scale; 
571 tp-»rcv scale = tp-»request r scale; 
572 ) 
573 (void) tcp reass(tp, (struct tcpiphdr *) 0, 
574 (struct mbuf *) 0); 
575 y" 
576 * if we didn't have to retransmit the SYN, 
577 * üse its rtt as our initial srtt & rtt var. 
578 *j 
579 if (tp-»t. rtt) 
580 tcp xmit timer(tp, tp-»t rtt); 
581 ) else 
582 tp-»-»t state = TCPS SYN. RECEIVED; s 
tcp input.c 
图 28-20 tcp_input 函数 : RIXE kA, KEA me] P BJSYN 
4. 处 理 ACK 


554-558 如 果 报 文 段 中 有 ACK， 令 snda_una 等 于 报 文 段 的 确认 字段 。 以 图 28-19 为 例 ， 
snd_una 应 更 新 为 366， 因 为 确认 字段 唯一 有 效 的 值 就 是 366。 如 果 snd_nxt 小 于 
snd una( 在 图 28-19 的 例子 中 不 可 能 发 生 ), 令 snd_nxt 等 于 snd_una。 

5. 关闭 连接 建立 定时 器 
559 连接 建立 定时 器 被 关闭 。 

此 处 代码 有 和 错误。 连接 建立 定时 器 只 有 在 ACK 标 志 置 位 时 才能 被 关闭 ， 因 为 收 到 一 

个 不 带 ACK 的 SYN 报 文 段 ， 只 是 说 明 连 接 双 方 同时 打开 ， 而 不 意味 着 对 说 已 收 到 了 SYN.， 

6. 初始 化 接收 序号 
560-562 初始 接收 序号 从 接收 报 文 段 的 序号 字段 中 复制 。tcp_rcvseqinit 宏 (上 一 市 结 
束 时 给 出 了 定义 ) 初 始 化 rcv_adv 和 rcv_nxt 为 接收 序号 加 1。 置 位 TF_ACKNOW 标 志 ， 从 而 
在 函数 结尾 处 调用 tcp_output， 发 送 报 文 段 携 带 的 确认 字段 应 等 于 rcv_nxt( 图 26-27)， 确 
认 刚 收 到 的 SYN。 
563-564 如 果 接 收报 文 段 带 有 ACK， 并 且 snd_una 大 于 连接 的 ISS， 主 动 打 开 处 理 完 毕 ， 
连接 进入 ESTABLISHED 状 态 。 


第 二 个 测试 条 件 其 实 是 多 余 的 。 图 28-20 起 始 处 ， 如 果 ACK 标 志 置 位 ， snd una 
将 等 于 接收 报 文 段 的 确认 字段 值 。 另 外 ， 图 28-18 中 紧 跟 着 case 语 和 句 的 1f 语 名 验证 了 
收 到 的 确认 字段 大 于 ISS。 所 以 ， 此 处 只 要 ACK 置 位 ， 就 可 以 确保 snd unaX FISS, 
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7. 连接 建立 
565-566 soisconnected 设 定 插 口 进 入 连接 状态 ，TCP 连 接 的 状态 转移 到 
ESTABLISHED, 


8. 查看 窗口 大 小 选项 
567-572 如 果 TCP 在 本 地 SYN 中 加 入 窗口 大 小 选项 ， 并 且 收 到 的 SYN 中 也 包含 了 这 一 选项 ， 
使 用 窗口 缩放 功能 ， 设 定 snd scale 和 rcv_scale。 因 为 tcp_newtcpcb 初 始 化 TCP 控 制 
块 为 0， 所 以 ， 如 果 不 使 用 窗口 大 小 选项 ， 这 两 个 变量 的 默认 值 为 0。 
9. 回应 用 进程 提交 队列 中 的 数据 
573-574 由 于 数据 可 能 在 连接 未 建立 之 前 到 达 ， 调 用 tcp_reass 把 数据 放 入 接收 缓存 ， 第 
二 个 参数 为 空 。 
测试 条 件 其 实 不 必要 的 。 因 为 TCP 刚 收 到 带 有 ACK 的 SYN 报 文 段 ， 状 态 从 
SYN_SENT 和 转移 到 ESTABLISHED。 即 使 有 数据 出 现在 SYN 中 ， 也 会 被 暂时 搁置 ， 直 
到 函数 快 结 束 ， 控 制 转 到 dodata 标 注 时 才 会 被 处 理 。 如 果 TCP 收 到 不 带 ACK 的 
SYN( 同 时 打开 )， 即 使 报 文 段 携带 数据 ， 也 会 被 暂时 搁置 ， 等 到 收 到 了 ACK， 连 接 从 
SYN_RCVD 转 移 到 ESTABLISHED 之 后 ， 才 会 被 处 理 。 
尽管 SYN 中 可 以 携带 数据 ， 并 且 Net/3 能 够 正确 处 理 这 样 的 报 文 段 ， 但 Net/3 自 己 
不 会 产生 这 样 的 报 文 段 。 
10. S STRTT [hil 28 0H 
575-580 如 果 确 认 的 SYN 正 被 计时 ，tcp_xmit_timer 将 根据 得 到 的 对 SYN 报 文 段 的 测 
量 值 初始 化 RTT 估 计 器 值 。 
TCP 在 此 处 忽略 收 到 的 时 间 蕉 选项 ， 只 查看 L_rtt 计 数 器 。TCP 主 动 打开 时 ， 在 
第 一 个 SYN 中 加 入 时 间 稚 选项 (图 26-24)， 如 果 对 闯 也 同意 采用 时 间 玲 ， 就 会 在 它 响 
应 的 SYN 中 回应 收 到 的 时 间 玲 (参见 图 28-10，NetU3 在 SYN 中 回应 收 到 的 时 间 稚 )。 因 
此 ，TCP 在 此 处 可 以 使 用 收 到 的 时 间 蕉 ， 而 不 用 + 上 _Frtt， 但 因为 两 者 的 精度 相同 
(500ms)， 在 这 一 点 上 时 间 堆 并 无 优势 可 言 。 使 用 时 间 稚 ,而 非 t_rtt 计 数 器 的 真正 
好 处 在 于 高 速 网 络 中 同时 发 送 大 量 数据 时 ， 能 提供 更 多 的 RIT 测 量 值 和 更 好 的 估计 器 
4A. (7 8 39 96), 
11. 同时 打开 
581-582 如 果 TCP 在 SYN_SENT 状 态 收 到 不 带 ACK 的 SYN， 则 称 为 同时 打开 ， 连 接 转移 到 
SYN_RCVD 状 态 。 
图 28-21 给 出 了 函数 的 下 一 部 分 代码 ， 处 理 SYN 中 可 能 携带 的 数据 。 图 28-17 结 尾 处 ， 代 码 
跳 转 至 trimthenstep6 标 注 处 ， 这 里 也 有 类 似 的 情况 。 


583 trimthenstep6: i ndi d 
584 pP 

585 * Advance ti-»ti seq to correspond to first data byte. 

586 * If data, trim to stay within window, 

587 * dropping FIN if necessary. 

588 "E 


图 28-21 tcp inputtIKAZ&: 接收 SYN 的 通用 处 理 
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589 ti-»ti seq--; 
590 if (ti-»ti len > tp-»rcv wnd) ( 
591 todrop = ti-»ti len - tp-»rcv wnd; 
592 m adj(m, -todrop); 
593 ti-»ti len = tp-»rcv wnd; 
594 tiflags &- ^TH FIN; 
595 tcpstat.tcps rcvpackafterwin-s-; 
596 tcpstat.tcps rcvbyteafterwin += todrop; 
597 ) 
598 tp-»snd wll = ti-»ti seq - 1; 
599 tp-»rcv. up = ti-»ti. seq; 
600 goto step6; 
601 ) ; 
tcp input.c 
28-21 (£x) 
584-589 报 文 段 序 号 加 1， 以 计 入 SYN。 如 果 SYN 带 有 数据 ，ti_seqg 现 在 应 等 于 数据 第 一 
个 字 布 的 序号 。 
12. 丢弃 落 在 接收 窗口 外 的 数据 


590-597 ti_len 等 于 报 文 段 中 的 数据 字 节 数 。 如 果 它 大 于 接收 窗口 ， 超 出 部 分 的 数据 
(ti_len 减 去 zcv_wnd) 将 被 m_adj 技 弃 。 国 数 参数 为 负 值 ， 所 以 ， 将 从 mbuf 链 尾部 起 逆 固 
删除 数据 (图 2-20)。 更 新 ti_len， 等 于 数据 删除 后 mbuf 中 剩余 的 数据 量 。 清 除 FIN 标 志 ， 这 
是 因为 FIN 可 能 跟 在 最 后 一 个 数据 字 节 之 后 ， 落 在 接收 窗口 外 而 被 丢弃 。 
如 果 SYN 是 对 本 地 连接 请 求 的 响应 ， 且 携带 的 数据 过 多 ， 则 说 明 对 端 收 到 的 

SYN 报 文 段 中 带 有 窗口 通告 ， 但 对 丹 忽略 了 通告 的 窗口 大 小 ， 并 森 止 不 规范 的 行为 。 

但 如 果 主 动 打 开 的 SYN 报 文 段 中 带 有 大 量 数据 ， 则 说 明 对 说 还 未 收 到 窗口 通告 ， 所 

以 不 得 不 猜测 SYN 中 能 够 携带 多 少数 据 。 

13. 强制 更 新 窗口 变量 
598-599 snd_w11 等 于 接收 序号 减 1。 从 图 29-15 中 可 看 到 ， 这 将 强制 更 新 3 个 窗口 变量 : 
sndq_wnda、sndq_w11 和 sndq_w12。 接 收 紧 急 指针 (zcv_up) 等 于 接收 序号 。 控 制 跳 转 到 标注 
step6 处 ， 与 RFC 793 定 义 的 步骤 相对 应 ， 我 们 将 在 图 29-15 中 详细 讨论 。 


28.7 PAWS: 防止 序号 回 绕 


图 28-22 给 出 了 tcp_input 下 一 部 分 的 代码 ， 处 理 可 能 出 现 的 序号 回 绕 : RFC 1323 中 定 
义 的 PAWS 算 法 。 请 回想 一 下 我 们 在 26.6 广 关于 时 间 堆 的 讨论 。 


T m tcp. input.c 
603 * States other than LISTEN or SYN SENT. 

604 * First check timestamp, if present. 

605 * Then check that at least some bytes of segment are within 
606 * receive window. If segment begins before rcv nxt, 

607 * drop leading data (and SYN); if nothing left, just ack. 

608 * 

609 * RFC 1323 PAWS: If we have a timestamp reply on this segment 
610 * and it's less than ts recent, drop it. E 

611 "4 

612 if (ts present && (tiflags & TH RST) -- 0 && tp-»ts recent && 


图 28-22 tcp_input 函 数 : 处 理 时 间 发 选项 
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613 TSTMP LT(ts val, tp-»ts recent)) ( 
614 /* Check to see if ts recent is over'24 days old.  */ 
515 if ((int) (tcp now - tp-»ts recent, age) > TCP PAWS IDLE) { 
616 P" 
617 * Invalidate ts recent. If this segment updates 
618 * ts recent, the age will be reset later and ts, recent 
619 * will get a valid value. If it does not, setting 
620 * ts recent to zero will at least satisfy the 
621 * requirement that zero be placed in the timestamp 
622 * echo reply when ts recent isn't valid. The 
623 * age isn't reset until we get a valid ts recent 
624 * because we don't want out-of-order segments to be 
625 * dropped when ts recent is old. 
626 过 
627 tp-»ts recent = 0; 
628 ) else ( 
629 tcpstat.tcps rcvduppack-4-; 
630 tcpstat.tcps  rcvdupbyte += ti-»ti. len; 
631 tcpstat.tcps_pawsdrop++; 
632 goto dropafterack; 
633 } 
634 } í 
tcp. input.c 
图 28-22 (£x) 
1. 基本 PAWS 测 试 


602-613 如 果 存 在 时 间 惟 ， 则 调用 tcp _ dooptions 设 定 ts_present。 如 果 下 列 3 个 条 件 
全 真 ， 则 丢弃 报 文 段 : 

1) RST 标 志 未 置 位 (参见 习题 28.8); 

2) TCP 曾 收 到 过 对 端 发 送 的 有 效 的 时 间 玲 (ts_recent 非 零 ); 

3) 当前 报 文 段 中 的 时 间 戳 (ts_val) 小 于 原先 收 到 的 时 间 戳 。 

PAWS 算 法 基于 这 样 的 假定 : 对 于 高 速 连接 ，32 bit 时 间 戳 值 回 绕 的 速度 远 小 于 32 bit 序 号 
回 绕 的 速度 。 习 题 28.6 说 明 ， 即 使 是 最 高 的 时 钟 计 数 器 更 新 频率 (每 毫秒 加 1)， 时 间 惟 的 符号 
位 也 要 24 天 才 会 回 绕 一 次 。 而 在 千 兆 级 网 络 中 ， 序 号 可 能 17 秒 就 回 绕 一 次 ( 卷 1 的 24.3-)。 
此 ， 如 果 报 文 段 时 间 惟 小 于 从 同一 个 连接 收 到 的 最 近 一 次 的 时 间 戳 ， 说 明 是 个 重复 报 文 段 ， 
应 被 丢弃 (还 需 进行 后 续 的 时 间 惟 过 期 测试 )。 尽 管 因为 序号 已 过 时 ，tcp_input 也 可 将 其 丢 
弃 ， 但 PAWS 算 法 能 够 有 效 地 处 理 序 号 回 绕 速 率 很 高 的 高 速 网 。 

注意 ，PAWS 算 法 是 对 称 的 : 它 不 仅 丢 弃 重 复 的 数据 报 文 段 ， 也 丢弃 重复 的 ACEK。PAWS 
处 理 所 有 收 到 的 报 文 段 ， 前 面 介绍 过 ， 首 部 预测 代码 也 采用 了 PAWS 测 试 (图 28-11)。 

2. 检查 过 期 时 间 截 
614-627 尽管 可 能 性 不 大 ，PAWS 测 试 还 是 会 失败 ， 因 为 连接 有 可 能 长 时 间 空 亲 。 收 到 的 报 
文 段 并 非 重 复 报 文 段 ， 但 连接 空闲 时 间 过 长 ， 造 成 时 间 惟 值 回 绕 ， 从 而 小 于 从 同一 个 连接 收 
到 的 最 近 一 次 的 时 间 惟 。 

无 论 何 时 ，ts_zecent 保 存 接收 报 文 段 中 的 时 间 戳 值 ，ts_recent_age 记 录 当 前 时 间 
(tcp_now)。 如 果 ts_recent 的 最 后 一 次 更 新 发 生 在 24 天 之 前 ， 则 将 其 清 零 ， 不 是 一 个 有 效 
的 时 间 发 值 。 常 量 TCP PAWS _IDLE 定 义 为 (24 x 24 x 60 x 60 x 2)， 最 后 的 乘 数 2 指 每 秒 钟 2 个 
滴答 。 这 种 情况 下 ， 不 丢弃 接收 报 文 段 ， 因 为 问题 是 时 间 惟 过 期 ， 而 非 重复 报 文 段 。 参 见习 
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题 28.60 和 28.7。 
图 28-23 举 例 说 明了 时 间 惟 过 期 问题 。 连 接 左 侧 的 系统 是 一 个 非 NeU3 的 TCP 实 现 ， 以 REFC 
1323 中 规定 的 最 高 速度 ， 每 毫秒 更 新 一 次 时 钟 。 连 接 右 侧 是 NeV3 实 现 。 


数据 ， 时 间 惟 =1 
本 pops -ts val-1 
ACK ts recent age-tcp now-N 





连接 空闲 25 天 = 
4 320 000 滴答 
时 间 惟 = 2 147 483 649 HEURE E Ge in 
Rig; 2147483650 ("P AX V 
数据 、 时 间 惟 = 2 160000001 ts. val = 2 160 000 001 


hti æ= 2 160 000 001 «ts recent -] 


tcp. now = N + 4 320 000 


图 28-23 过 期 时 间 惟 举例 


第 一 个 数据 报 文 段 中 携带 的 时 间 戳 值 等 于 1， 所 以 ts_recent 等 于 1，ts_recent_age 等 
于 当前 时 间 (tcp_now)， 如 图 28-11 和 图 28-35 所 示 。 连 接 空 闪 25 天 ， 在 此 期 间 tcp_now 增 加 了 
4 320 000 (25 x 24 x 60x 60 x 1000)， 对 问 的 时 间 玲 值 增 加 f 2 160 000 000 (25 x 24 x 60 x 60 x 
1000), FRR SUAE, B2 147483 649 大 于 1， 而 2 147 483 650 小 于 1( 回 想 图 24-26)。 
因此 ， 当 收 到 的 数据 报 文 段 中 的 时 间 礁 等 于 2 160 000 001 时 ， 调 用 TSTMP_LT 宏 进行 比较 ， 
收 到 的 时 间 惟 小 于 ts_recent(1)，PAWS 测 试 失败 。 但 因为 tcp_now 减 去 ts_recent age 
大 于 24 天 ,说 明 造 成 失败 的 原因 是 连接 空间 时 间 过 长 ， 报 文 段 被 接受 。 

3. 丢弃 重复 报 文 段 
628-633 ”如果 PAWS 算 法 测试 说 明 收 到 的 是 一 个 重复 报 文 段 ， 确 认 之 后 丢弃 该 报 文 段 ( 所 有 
重复 报 文 段 都 必须 被 确认 )， 不 更 新 本 地 时 间 惟 变量 。 

图 24-$ 中 ，tcp pawsdrop (22) 远 小 于 tcps_rcvduppack (46 953)。 这 可 能 
是 因为 目前 只 有 很 少 的 系统 支持 时 间 丽 ， 导 致 绝 大 多 数 重 复 报 文 段 直 到 TCP 输 出 处 理 
中 才 被 发 现 和 和 去 弃 ， 而 非 PAWS。 


28.8 裁剪 报 文 段 使 数据 在 窗口 内 


本 节 讨 论 如何 调 整 收 到 的 报 文 段 ， 确 保 它 只 携带 能 够 放 和 人 接收 窗口 内 的 数据 : 

。 丢 弃 接 收报 文 段 起 始 处 的 重复 数据 ， 并 且 

。 从 报 文 段 尾部 起 ， 丢 弃 超 出 接收 窗口 的 数据 。 

从 而 只 剩 下 可 放 人 和 人 接收 窗口 的 新 数据 。 图 28-24 给 出 的 代码 ， 用 于 判定 报 文 段 起 始 处 是 否 
存在 重复 数据 。 | 

1. 查看 报 文 段 前 部 是 否 存在 重复 数据 
635-636 如 果 接 收报 文 段 的 起 始 序 号 (ti_seq) 小 于 等 待 接收 的 下 一 序号 (rcv_nxt)， 则 
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todrop 大 于 0， 报 文 段 前 部 有 重复 数据 。 这 些 数据 已 被 确认 并 提交 给 应 用 进程 (图 24-18)。 


635 todrop - tp-»rcv nxt - ti-»ti seq; "p HIE 
636 if (todrop » 0) + 
637 if (tiflags & TH SYN) ( 
638 tiflags &- ^TH SYN; 
639 ti-»ti seq-«-*; 
640 if (til-»ri urbD > 1) 
641 ti-»ti urp--; 
642 else 
643 tiflags &- TH URG; 
644 todrop--; 
645 ) 
tcp invut.c 





图 28-24 tcp input 函 数 : 查看 报 文 段 起 始 处 的 重复 数据 


2. 丢弃 重复 SYN 
637-645 如 果 SYN 标 志 置 位 ， 它 必然 指向 报 文 段 的 第 一 个 数据 序号 ， 现 已 知 是 重复 数据 。 
清除 SYN， 报 文 段 的 起 始 序 号 加 1， 以 越过 重复 的 SYN。 此 外 ， 如 果 接 收报 文 段 中 的 紧急 指针 
大 于 1 (ti_urp)， 则 必须 将 其 减 1， 因 为 紧急 数据 偏 移 量 以 报 文 段 起 始 序号 为 基准 。 如 果 紧 急 
指针 等 于 0 或 者 1， 则 不 做 处 理 ， 为 防止 出 现 等 于 1 的 情况 ， 清 除 URG 标 志 。 最 后 ，todrop 减 
1( 因 为 SYN 占 用 一 个 序号 )。 

图 28-25 继 续 处 理 报 文 段 前 部 的 重复 数据 。 


- tcp_input.c 
646 if (todrop >= ti-sti_len}) { 
647 tcpstat.tcps_rcvdđuppack++; 
648 tcpstat.tcps rcvdupbyte += ti->ti_len; 
649 7* 
650 * If segment is just one to the left of the window, 
651 * check two special cases: 
652 * 1. Don't toss RST in response to 4.2-style keepalive. 
653 * 2. If the only thing to drop is a FIN, we can drop 
654 * it, but check the ACK or we will get into FIN 
655 * wars if our FINs crossed (both CLOSING). 
656 * In either case, send ACK to resynchronize, 
657 * but keep on processing for RST or ACK. 
658 "JJ 
659 if ((tiflags & TH FIN && todrop == ti-»ti len + 1) 
660 ) ( 
661 todrop - ti-»ti len; 
662 tiflags &- TH FIN; 
663 tp-»t flags |- TF ACKNOW; 
664 ) else ( 
665 /* 
666 * Handle the case when a bound socket connects 
667 * to itself. Allow packets with a SYN and 
668 * an ACK to continue with the processing. 
669 airi 
670 lf (todrop T= 0 || (tiflags & TH ACK) == 03) 
671 goto dropafterack; 
672 ) 
673 ) else ( 
674 tcpstat.tcps rcvpartduppack-4-*; 
675 tcpstat.tcps rcvpartdupbyte += todrop; 


图 28-25 tcp inputHAZE: 处 理 完全 重复 的 报 文 段 
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676 ) 

677 m adjí(m, todrop); 

678 ti-»ti seq += todrop; 
679 ti-»ti. len -= todrop; 
680 if (ti-»ti urp > todrop) 
681 ti-»ti urp -= todrop; 
682 else ( 

683 tiflags &- "TH URG; 
684 Lti-»ti. Urp = 0; 

685 ) 

686 ) 


tcp input.c 
图 28-25 (£x) 


3. 判定 报 文 段 数据 是 人 否 完全 重复 
646-648 如 琳 报 文 段 前 部 重复 的 数据 字 市 数 大 于 等 于 报 文 段 大 小 ， 则 是 一 个 完全 重复 的 报 
文 段 。 

4. 判定 重复 FIN 
649-663 接 下 来 测试 FIN 是 否 重复 ， 图 28-26 举 例 说 明了 这 一 情况 。 


1 2 3 4 5 6 7 8 9 FIN 
TCP 已 确认 并 提交 给 插口 层 的 数据 序号 


! 


rcv nx =] 


下 一 接收 序号 





图 28-26 举例 : 带 有 FIN 标 志 的 重复 报 文 段 


图 28-26 的 例子 中 ，todrop 等 于 ， 大 于 等 于 ti_len(4)。 因 为 FIN 置 位 ， 并 且 todrop 等 
于 ti_len 加 1， 所 以 清除 FIN 标 志 ，todqrop 重 设 为 4， 置 位 TF_RACKNOW， 国 数 结束 时 立即 发 
送 ACK。 这 个 例子 也 适用 于 其 他 报 文 段 ， 如 果 ti_seq 加 上 ti _ len 等 于 10。 


代码 的 注释 提 到 了 4.2BSD 实 现 中 的 保 活 定时 器 ，Net/3 省 略 了 相关 处 理 (if 语 抽 中 
$353 —ÓROA i), 
5. 生成 重复 ACK 
664-672 如 果 todqrop 非 零 ( 报 文 段 携 带 的 全 部 是 重复 数据 )， 或 者 ACK 标 志 未 置 位 ， 则 丢弃 
报 文 段 ， 调 用 aropafterack 生 成 ACK。 出 现 这 种 情况 ， 一 般 是 因为 对 端 未 收 到 ACK， 导 致 
报 文 段 重 发 。TCP 生 成 新 的 ACK。 
6. 处 理 同时 打开 或 半 连 接 
664-672 代码 还 处 理 同时 打开 ， 以 及 插口 与 自己 建立 连接 的 情况 ， 将 在 下 一 市 中 详细 讨 
论 。 如 果 todrop 等 于 0( 完 全 重复 报 文 段 中 不 包含 数据 )， 且 ACK 标 志 置 位 ， 则 继续 下 一 步 
的 处 理 。 
if 语 名 是 4.4BSD 版 中 新 加 的 。 时 期 的 基于 Berkeley 的 系统 只 是 简单 地 跳 转 到 
dropafterack， 即 不 处 理 同时 打开 ， 也 不 处 理 与 自己 建立 连接 的 情况 。 
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即使 做 了 改进 ， 这 段 代 码 仍 有 错误 ,我们 在 本 节 结 束 时 将 谈 到 这 一 点 。 


7. 收 到 部 分 重复 报 文 段 时 ， 更 新 统计 值 
673-676 当 todrop 小 于 报 文 段 长 度 时 ， 执 行 else 语 句 : 报 文 段 携带 数据 中 只 有 部 分 
重复 。 

8. 删除 重复 数据 ， 更 新 紧急 指针 
677-685 调用 m_adj ， 从 mbuf 链 的 首部 开始 删除 重复 数据 ， 并 相应 地 调整 起 始 序 号 和 长 度 。 
如 果 紧 急 指 针 指 向 的 数据 仍 在 mbuf 中 ， 也 需 做 相应 的 调整 。 否 则 ， 紧 急 指针 清 零 ， 并 清除 


URG 标 志 。 
图 28-27 给 出 了 函数 下 一 部 分 的 代码 ， 处 理应 用 进程 终止 后 到 达 的 数据 。 
7T 7i tcp input.c 
688 * If new data is received on a connection after the 
689 * user processes are gone, then RST the other end. 
690 "y! 
691 if ((so-»so state & SS NOFDREF) && 
692 tp-»t state > TCPS CLOSE WAIT && ti-»ti len) ( 
693 tp = tcp close(tp); 
694 tcpstat.tcps rcvafterclose--; 
695 goto dropwithreset; 
696 ) : 
Icp input.c 


图 28-27 tcp_input 国 数 : 处 理应 用 进程 终止 后 到 达 的 数据 


687-696 如 果 找 不 到 插口 的 描述 符 ， 说 明 应 用 进程 已 关闭 了 连接 (连接 状态 等 于 图 24-16 中 
大 于 CLOSE_WAIT 的 5 个 状态 中 的 任何 一 个 )， 若 接收 报 文 段 中 有 数据 ， 则 连接 被 关闭 。 报 文 
段 被 丢弃 ， 输 出 RST 作 为 啊 应 。 

因为 TCP 支 持 半 关闭 功能 ， 如 果 应 用 进程 意外 终止 (也 许 被 某 个 信号 量 终 止 )， 作 为 进程 终 
止 的 一 部 分 ， 内 核 将 关闭 所 有 打开 的 描述 符 ，TCP 将 发 送 FIN。 连 接 转 移 到 FIN_WAIT_1 状 态 。 
因为 FIN 的 接收 者 无 法 知道 对 端 执行 的 是 完全 关闭 ， 还 是 半 关 闭 。 如 果 它 假定 是 半 关 闭 ， 并 继 
续 发 送 数据 ， 那 么 将 收 到 图 28-27 中 发 送 的 FIN。 

图 28-28 给 出 了 函数 下 一 部 分 的 代码 ， 从 接收 报 文 段 中 删除 落 在 通告 窗口 右 侧 的 数据 。 


697 7* tcp. input.c 
698 * If segment ends after window, drop trailing data 

699 * (and PUSH and F1N); if nothing left, just ACK. 

700 wf 

701 todrop = (ti-»ti seq + ti-»ti len) - (tp-»rcv nxt + tp-»rcv wnd); 
702 if (todrop » 0) { 

703 tcpstat.tcps rcvpackafterwin-4-; 

704 if (todrop s= ti-»ti.len) + 

705 tcpstat.tcps rcvbyteafterwin += ti-»ti len; 

706 /* 

707 * If a new connection request is received 

708 * while in TIME WAIT, drop the old connection 

709 * and start over if the sequence numbers 

710 * are above the previous ones. 

24.4 */ 

712 if (tiflags & TH SYN && 

FLA tp->t_state == TCPS_TIME_WAIT && 


图 28-28 tcp_input 函 数 : 删除 落 在 窗口 右 侧 的 数据 
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714 SEQ_GT (ti->ti_seq, tp->rcv_nxt)) { 
TLS iss = tp-»rcv nxt + TCP ISSINCR; 
716 to e tep cLose(tp) ; 
734 goto findpcb; 
718 ) 
719 A 
720 * If window is closed can only take segments at 
TAA * window edge, and have to drop data and PUSH from 
722 * incoming segments. Continue processing, but 
723 * remember to ack. Otherwise, drop segment 
724 * and ack. 
T25 家 天 
726 if (tp-»rcv. wna == 0 && tl-»ti seg ss tp-»rov.nxt) ( 
721 tp-»t flags |= TF. ACKNOW; 
728 tcpstat.tcps rcvwinprobe--; 
729 ) else 
730 goto dropafterack; 
731 ) else 
732 tcpstat.tcps rcvbyteafterwin += todrop; 
T7123 m adj(m, -todrop); 
734 ti-»ti len -= todrop; 
735 tiflags &- ^(TH PUSH | TH FIN); 
736 ) 
tcp input.c 
图 28-28 (£x) 
9. 计算 落 在 通告 窗口 右 侧 的 字 节 数 


697-703 todrop 等 于 接收 报 文 段 中 落 在 通告 窗口 右 侧 的 字 市 数 。 例 如 ， 在 图 28-29 中 ， 
todrop 等 于 (6+5) 减 去 (4+6)， 即 等 于 1。 


rcv_wnd = 6: 接收 窗口 
向 发 送 方 通告 
1 2 3 4 5 6 F 8 9 10 11 
已 确认 过 的 序号 i à 
rcv nxt-4 rcv. adv - 10 
ti len-5 


4E————————————Á————— 





ti seq-6 
图 28-29 举例 : 接收 报 文 段 部 分 数据 落 在 窗口 右 侧 


10. 如 果 连 接 处 于 TIME_WAIT 状 态 ， 查 看 有 无 新 的 连接 请 求 
704-718 如 果 todqrop 大 于 等 于 报 文 段 长 度 ， 则 丢弃 整个 报 文 段 。 如 果 下 列 3 个 条 件 全 真 : 

1) SYN 标 志 置 位 ; 

2) 连接 处 于 TIME_WAIT 状 态 ; 

3) 新 的 起 始 序号 大 于 连接 上 最 后 收 到 的 序号 。 
说 明 对 端 要 求 在 已 被 关闭 且 正 处 于 TIME_WAIT 状 态 的 连接 上 重建 连接 。RFC 1122 人 允许 这 种 情 
况 ， 但 要 求 新 连接 的 ISS 必 须 大 于 最 后 收 到 的 序号 (rcv_nxt)。TCP 在 rcv_nxt 的 基础 上 增加 
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128 000(TCP ISSINCR),， 得 到 执行 图 28-17 中 的 代码 时 所 使 用 的 ISS。 调 用 tcp close 释放 
处 于 TIME_WAIT 状 态 的 原 有 连接 的 PCB 和 和 TCP 控制 块 。 控 制 跳 转 到 findpcb( 图 28-5)， 寻 找 
监听 服务 恬 的 PCB( 假 定 服务 器 仍 在 运行 )。 然 后 执行 图 28-7 中 的 代码 ,为 新 连接 创建 新 的 插口 ， 
最 后 执行 图 28-16 和 图 28-17 中 的 代码 ， 完 成 新 连接 请 求 的 处 理 。 

11. 判定 是 否 为 窗口 探测 报 文 段 
719-728 如 果 接 收 窗口 已 关闭 (rcv_wnd 等 于 0)， 且 接收 报 文 段 中 的 数据 从 窗口 最 左 端 开始 
(zcv_nxt)， 说 明 是 对 端 发 送 的 窗口 探测 报 文 段 。TCP 立 即 发 送 响应 ACK， 其 中 包含 等 待 接 
收 的 序号 。 

12. 丢弃 完全 落 在 窗口 之 外 的 其 他 报 文 段 
729-730 如果 报 文 段 整个 落 在 窗口 之 外 ， 且 并 非 窗口 探测 报 文 段 ， 则 丢弃 该 报 文 段 ， 并 发 
送 携带 等 竺 接收 序号 的 ACEK， 作 为 啊 应 。 

13. 处 理 携 带 部 分 有 效 数 据 的 报 文 段 
731-735 通过 m_adj ， 从 mbnuf 链 中 删除 落 在 窗口 右 侧 的 数据 ， 并 更 新 ti_1en。 如 采 接 收 
报 文 段 是 对 闯 发 送 的 窗口 探测 报 文 段 ，m_adj 将 丢弃 mbuf 链 中 的 所 有 数据 ， 并 将 ti_1Len 设 
为 0， 最 后 清除 FIN 和 PSH 标 志 。 


何 时 丢弃 ACK 


图 28-25 中 的 代码 有 错误 ， 在 几 种 情况 下 ， 本 应 继续 进行 报 文 段 处 理 ， 控 制 却 跳 转 到 
dropafterack[Carlson 1993; Lanciani 1993]。 系 统 实际 运行 时 ， 如 果 连 接 双 方 重组 队列 中 
都 存在 缺失 报 文 段 ， 并 都 进入 持续 状态 ， 将 造成 死 锁 ， 因 为 双方 都 将 丢弃 正 浓 的 ACK。 

纠正 的 方法 是 人 简化 图 28-25 起 始 处 的 代码 。 控 制 不 再 跳 转 到 dropafterack， 如 果 收 到 了 完全 
重复 报 文 段 ， 则 关闭 FIN 标 志 ， 并 在 国 数 结束 时 强迫 立即 发 送 ACKE。 删 除 图 28-25 中 的 646~676 行 的 
代码 ， 而 代 之 以 图 28-30 中 的 代码 。 此 外 ， 新 代码 还 更 正 了 原 代 码 中 的 另 一 个 错误 (习题 28.9)。 


if (todrop > ti-»ti len || 
todrop == ti-»ti len && (tiflags & TH FIN) == 0) 1 


/* 

* Any valid FIN must be to the left of the window. 
* At this point the FIN must be a duplicate or 

* out of sequence; drop it. 

"y 

tiflags &- ^TH FIN; 


/* 
* Send an ACK to resynchronize and drop any data. 
* But keep on processing for RST or ACK. 
TJ 

tp-»t flags |= TF. ACKNOW; 

todrop - ti-»ti len; 

tcpstat.tcps rcvdupbyte «- todrop; 

tcpstat.tcps rcvduppack--; 


) else ( 
tcpstat.tcps rcvpartduppack-«-; 
tcpstat.tcps rcvpartdupbyte += todrop; 


图 28-30 图 28-28 中 646~676 行 代码 的 修正 
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28.9 上 自 连接 和 同时 打开 


读者 应 首先 理解 插口 与 自己 建立 连接 的 步骤 。 接 着 会 看 到 在 4.4BSD 中 ， 如 何 巧 妙 地 通过 
一 行 代码 修正 图 28-25 中 的 错误 ， 从 而 不 仅 能 够 处 理 自 连接 ， 还 能 处 理 4.4BSD 以 前 的 版 本 中 都 
无 法 正确 处 理 的 同时 打开 。 

应 用 进程 创建 一 个 插口 ， 并 通过 下 列 系 统 调用 建立 自 连 接 : socket, bind šl —^ 
本 地 端口 (假定 为 3000)， 之 后 connect 试 图 与 同一 个 本 地 地 址 和 同一 个 端口 号 建立 连接 。 如 
果 connect 成 功 ， 则 插口 已 建立 了 与 自己 的 连接 : 向 这 个 插口 写 入 的 所 有 数据 ， 都 可 以 在 同 
一 插口 上 读 出 。 这 有 点 类 似 于 全 双 工 的 管道 ， 但 只 有 一 个 ， 而 非 两 个 标识 符 。 尽 管 很 少 有 应 
用 进程 会 这 样 做 ， 但 实际 上 它 是 一 种 特殊 的 同时 打开 ， 两 者 的 状态 变迁 图 相同 。 如 果 系 统 不 
允许 插口 建立 自 连接 ， 那 么 它 也 很 可 能 无 法 正确 处 理 同 时 打开 ， 而 后 者 是 RFC 1122 所 要 求 的 。 
有 些 人 对 于 自 连 接 能 成 功 感到 非常 惊 证 ， 因 为 只 用 了 一 个 Internet PCB 和 一 个 TCP 控 制 块 。 不 
过 ，TCP 是 全 双 工 的 、 对 称 的 协议 ， 它 为 每 个 方 同 上 的 数据 流 保留 一 份 专 有 数据 。 

图 28-31 给 出 了 应 用 进程 调用 connect 时 的 发 送 序号 空间 ，SYN 已 发 送 ， 连 接 状态 为 
SYN SENI. 

插口 收 到 SYN 后 ， 执 行 图 28-18 和 图 28-20 中 的 代码 ， 但 因为 SYN 中 未 包含 ACK ， 连 接 状 
态 转移 到 SYN_RCVD。 从 状态 变迁 图 (图 24-15) 可 知 ， 与 同时 打开 类 似 。 图 28-32 给 出 了 接收 
序号 空间 。 图 28-20 置 位 TF ACKNOW，tcp_output 生 成 的 报 文 段 将 包含 SYN 和 ACK( 图 24- 
16 中 的 tcp _ outflags)。SYN 序 号 等 于 153， 而 确认 序号 等 于 154。 


状态 = SYN_SENT 


snd una  snd nxt 
snd max 





图 28-31 自 连 接 : SYN 发 送 后 的 发 送 序 号 空间 





图 28-32 自 连 接 : 收 到 的 SYN 处 理 完毕 后 的 接收 序号 空间 


与 图 28-20 处 理 的 正常 情况 相 比 ， 发 送 序 号 空间 没有 变化 ， 只 是 连接 状态 等 于 SYN_SENT。 
图 28-33 给 出 了 收 到 同时 带 有 SYN 和 ACK 的 报 文 段 时 ， 接 收 序号 空间 的 状态 。 


接收 SYN, ACK: 


rcv nxt 





图 28-33 收 到 带 有 SYN 和 ACK 报 文 段 时 ， 接 收 序号 空间 的 状态 
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因为 连接 状态 等 于 SYN_RCYD， 将 执行 图 29-2 中 的 代码 处 理 收 到 的 报 文 段 ， 而 不 用 我 们 
在 本 章 前 面 讨论 过 的 处 理 主 动 打开 或 被 动 打开 的 代码 。 但 在 此 之 前 ， 首 先 遇 到 的 是 图 28-24 中 
的 代码 ， 而 且 从 测试 结 末 看 似乎 是 一 个 重复 SYN: 
rcv nxt - rcv seq 


154 - 153 
l 


因为 SYN 标 志 置 位 ， 清 除 该 标志 ，ti_seq 等 于 154，todrop 等 于 0。 但 因为 todrop 等 于 报 
文 段 长 度 (0)， 图 28-25 开 始 处 的 测试 条 件 为 真 ， 从 而 判定 是 一 个 重复 报 文 段 ， 执 行 注释 为 “处 
理 绑 定 插口 自 连接 的 情况 ”的 代码 。 早 期 的 TCP 实 现 直接 跳 到 dropafterack， 略 过 了 
SYN_RCVD 状 态 的 处 理 逻 辑 ， 不 可 能 建立 连接 。 相 反 ， 即 使 Lcdrop 等 于 0， 且 ACK 标 志 置 位 
(本 例 中 两 个 条 件 都 成 立 )，Net/3 仍 旧 继 续 处 理 收 到 的 报 文 段 ， 从 而 进入 函数 后 面 对 
SYN_RCVD 状 态 的 处 理 ， 连 接 转 移 到 ESTABLISHED 状 态 。 

图 28-34 给 出 了 自 连 接 处 理 中 函数 调用 的 情况 ， 是 非常 有 意思 的 。 


connect 系统 调用 


soconnect 


todrop 





tcp output tcp input tcp. output tcp input 
ip output ipintr ip output ipintr 
| | 软 中 断 | | 软 中 断 
looutput looutput 
添加 到 iPintrq 添加 到 ipintrq 
动作 发送 SYN 处 理 SYN 发 送 SYN, ACK AB. SYN, ACK 
起 始 状 态 CLOSED SYN SENT SYN RCVD SYN RCVD 
结束 状态 SYN SENT SYN RCVD SYN RCVD ESTABLISHED 


图 28-34 自 连接 处 理 中 的 函数 调用 序列 


操作 顺序 从 左 至 右 ， 首 先 应 用 进程 调用 connect， 发 出 PRU_CONNECT 请 求 ， 经 协议 栈 
发 送 SYN。 因 为 报 文 段 发 同 主机 自己 的 IP 地 址 ， 直 接 通 过 坏 回 接口 加 入 到 ipintrq， 并 生成 
一 个 软 中 断 。 

系统 在 软 中 断 处 理 中 调用 ipintr，ipintr 调 用 tcp input, tcp input 再 调用 
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tcp_output, 经 协议 栈 发 送 带 有 ACK 的 SYN。 这 个 报 文 段 也 经 由 环 回 接口 加 入 到 ipintrq,， 
并 生成 一 个 软 中 断 。 系 统 调 用 ipintr 处 理 软 中 断 ，ipintr 调 用 tcp_input， 连接 进入 
ESTABLISHED 状 态 。 


28.10 记录 时 间 戳 
图 28-35 给 出 了 tcp input 下 一 部 分 的 代码 ， 处 理 收 到 的 时 间或 选项 








S FT tcp. input.c 
738 * If last ACK falls within this segment's sequence numbers, 
739 * record its timestamp. 
740 ul i 
741 if (ts present && SEQ LEQ(ti-»ti seq, tp-»last ack sent) && 
742 SEQ LT(tp-»last ack sent, ti-»ti seq + ti-»ti len + 
743 ((tiflags & (TH SYN | TH FIN)) Y= 0))) ( 
744 tp-»ts recent age = tcp now; 
745 tp-»ts recent = ts val; 
746 } 
tcp input.c 


图 28-35 tcp_input 国 数 : idol iR] EX 


737-746 如果 收 到 的 报 文 段 中 带 有 时 间 惟 ， 时 间 戳 值 保存 在 ts_zrecent 中 。 我 们 在 26.6 节 
曾 讨论 过 NeU3 的 处 理 代 码 有 错误 。 如 果 FIN 和 SYN 标 志 均 未 置 位 ， 表 达 式 


((tiflags & (TH SYN|TH FIN)) != 0) 


等 于 0， 如 果 有 一 个 置 位 ， 则 等 于 1。 
28.11 RST 处 理 


图 28-36 给 出 了 处 理 RST 标 志 的 switch 语 句 ， 取 决 于 当前 的 连接 状态 。 

1. SYN_RCVD 状 态 
759-761 插口 差错 代码 设 定 为 ECONNREFUSED， 控 制 向 前 跳 转 藻 干 行 ， 关 闭 插口 。 在 两 种 
状况 下 ， 连 接 进入 此 状态 。 一 般 地 讲 ， 连 接收 到 SYN 后 ， 从 LISTEN 转 移 到 SYN_RCVD 状 态 。 
TCP 发 送 带 有 ACK 的 SYN 作 为 啊 应 ， 但 接着 却 收 到 了 对 端的 RST。 此 时 ，so5| 用 的 插口 古 在 
图 28-7 中 调用 sonewconn 新 创建 的 。 因 为 4aropsocket 为 真 ， 在 标注 drop 处 ， 插 口 被 丢弃 ， 
监听 插口 不 受 影响 。 这 也 是 图 24-15 中 状态 从 SYN_RCVD 转 回 LISTEN 的 原因 。 

另 一 种 情况 是 ， 应 用 进程 调用 connect 后 ， 出 现 同 时 打开 ， 状 态 也 转移 到 SYN_RCVD。 
收 到 RST 后 ， 向 应 用 进程 返回 插口 差错 。 





tcp_input.c 
748 If the RST bit is set examine the state: 

749 SYN_RECEIVED state: i 

750 If passive open, return to LISTEN state. 

A5. If active open, inform user that connection was refused. 


753 Inform user that connection was reset, and close tcb. 
754 CLOSING, LAST ACK, TIME WAIT states 

755 Close the tcb. 

756 wf 


* 
* 
* 
* 
752 * ESTABLISHED, FIN WAIT 1, FIN WAIT2, CLOSE WAIT states: 
* 
* 
* 


图 28-36 tcp inputrAZy: 处 理 RST 标 志 
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757 if (tiflags & TH RST) 
758 switch (tp-»t state) ( 
759 case TCPS SYN RECEIVED: 
760 SOo-»so error = ECONNREFUSED; 
761 goto close; 
762 case TCPS ESTABLISHED: 
763 case TCPS FIN WAIT 1: 
764 case TCPS FIN WAIT. 2: 
765 case TCPS CLOSE WAIT: 
766 SOo-»so error = ECONNRESET; 
767 close: 
768 tp->t_state = TCPS CLOSED; 
769 tcpstat.tcps_dropS++; 
770 tp = tcp_close(tp); 
771 goto drop; 
712 case TCPS CLOSING: 
713 case TCPS LAST ACK: 
774 case TCPS TIME WAIT: 
715 tp = tcp close(tp); 
776 goto drop; 
777 ) : 
tcp input.c 
图 28-36 (£x) 
2. 其 他 状态 


762-777 如 果 在 ESTABLISHED、FIN_WAIT_1、FIN_WAIT_2 或 CLOSE_WAIT 状 态 收 到 
RST， 则 返回 差错 代码 ECONNRESET。 如 果 状 态 为 CLOSING、LAST_ACK 或 TIME_WAIT,， 
由 于 应 用 进程 已 关闭 插口 ， 无 须 返 回 差错 代码 。 


如 果 允 许 RST 终 止 处 于 TIME WRIT 状 态 的 连接 ， 那么 TIME WAIT 状 态 也 就 没有 


存在 的 必要 。RFC 1337 [Braden 1992] 讨 论 了 这 一 点 ， 及 其 他 取消 TIME_WAIT 状 态 
的 可 能 状况 ， 建 议 不 允许 RST 永 久 终 止 处 于 TIME WRIT 状 态 的 连接 。 参 见习 题 28.10 
中 的 例子 。 


图 28-37 给 出 了 函数 下 一 部 分 的 代码 ， 验 证 SYN 是 否 出 错 ，ACK 是 否 存 在 。 








235 =< tcp_input.c 
779 * If a SYN is in the window, then this is an 
780 * error and we send an RST and drop the connection. 
781 * 
782 if (tiflags & TH SYN) ( 
783 tp = tcp drop(tp, ECONNRESET); 
784 goto dropwithreset; 
785 ) 
786 £t 
787 * If the ACK bit is off we drop the segment and return. 
788 ud i 
789 if ((tiflags & TH ACK) == O0) 
790 goto drop; 
tcp input.c 
图 28-37 tcp inputrAZX: 处 理 带 有 多 余 SYN 或 者 缺少 ACK 的 报 文 段 
778-785 如果 SYN 标 志 依 旧 置 位 ， 说 明 出 现 了 差错 ， 连 接 被 丢弃 ， 返 回 差错 代码 


ECONNRESET, 
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786-790 如 果 ACK 标 志 未 置 位 ， 则 报 文 段 被 丢弃 。 我 们 将 在 下 一 章 讨论 函数 剩余 部 分 的 代 
码 ， 其 中 假定 ACK 标 志 均 置 位 。 


28.12 


小 结 


本 草 详 细 介 绍 了 TCP 输 入 处 理 的 前 半 部 分 ， 下 一 章 将 继续 讨论 函数 剩余 的 部 分 。 

本 章 介 绍 了 如 何 验证 报 文 段 检 验 和 ， 处 理 各 种 TCP 选 项 ， 处 理发 起 和 结束 连接 建立 的 
SYN 报 文 段 ， 从 报 文 段 头 尾 两 个 方 癌 删除 无 效 数 据 ， 及 处 理 RST 标 志 。 

首部 预测 算法 处 理 正 第 情况 的 数据 流 是 非常 有 效 的 ， 执 行 速度 最 快 。 尽 管 我 们 讨论 的 多 
数 处 理 逻 辑 用 于 覆盖 所 有 可 能 发 生 的 情况 ， 但 多 数 报 文 段 都 是 正常 的 ， 只 需 很 少 的 处 理 步 又 。 


习题 


28.1 
28.2 


28.3 
28.4 


28.5 
28.6 


28.1 


28.8 
28.9 


假定 Net/3 中 插口 缓存 最 大 等 于 262 444， 基 于 图 28-7 的 算法 ， 得 到 的 窗口 缩放 因子 
是 多 少 ? 

假定 Net/3 中 插口 缓存 最 大 等 于 262 444， 如 果 往 返 时 间 等 于 60ms， 可 能 的 最 大 吞吐 
量 是 多 少 ? (提示 : 见 卷 1 的 图 24-5 及 带宽 的 解 ) 

为 什么 图 28-10 中 ， 调 用 bcopy 获 取 时 间 截 值 ? 

我 们 在 26.6 节 中 提 到 ，TCP 要 求 的 时 间 惟 选项 格式 与 RFC 1323 附 录 人 A 中 定义 的 不 同 。 
尽管 TCP 能 够 正确 处 理 时 间 惟 ， 但 由 于 采用 与 标准 不 同 的 格式 ， 会 付出 什么 代价 ? 
处 理 PRU_RATTRACH 请 求 时 会 分 配 PCB 和 TCP 控 制 块 ， 为 什么 不 接着 调用 
tcp_template 分 配 首 部 模板 ?而 是 直至 收 到 了 SYN， 在 图 28-17 中 才 进 行 这 一 操作 。 
阅读 RFC 1323， 理 解 为 什么 图 28-22 中 选取 24 天 作为 空间 时 间 的 界限 ? 
在 图 28-22 中 ， 如 果 连 接 空 时 间 超 过 24 天 , tcp now-ts recent age 与 
TCP_PAWS_IDLE 的 比较 ， 会 出现 符号 位 回 绕 的 问题 。Net/3 中 采取 500ms 作 为 时 间 
惟 单 位 ， 会 在 什么 时 间 出 现 问 题 ? 

阅读 RFC 1323， 回 答 为 什么 图 28-22 中 PAWS 测 试 不 包括 RST 报 文 段 ? 
客户 发 送 了 SYN， 服 务 器 响应 SYN/ACK。 客 户 转 移 到 ESTABLISHED 状 态 ， 并 发 送 
响应 ACK。 但 这 个 ACK 丢 失 ， 服 务 器 重 发 SYN/ACK。 描 述 一 下 客户 收 到 重 发 的 
SYN/ACK 时 的 处 理 步 又。 


28.10 客户 和 服务 器 已 建立 了 连接 ， 服 务 右 主动 关闭 。 连 接 正 浓 终止 ， 服 务 器 上 的 插口 


对 转移 到 TIME_WAIT 状 态 。 在 服务 问 的 2MSL 定 时 右 超 时 前 ， 同 一 客户 (客户 端的 
同一 个 插口 对 ) 向 服务 雁 发 送 SYN， 但 起 始 序号 小 于 连接 上 最 后 收 到 的 序号 。 会 发 
ETA? 
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本 章 从 前 一 章 结束 的 地 方 开始 ， 继 续 介绍 TCP 输 入 处 理 。 回 想 一 下 图 28-37 中 最 后 的 测试 
条 件 ， 如 果 ACK 未 置 位 ， 输入 报 文 段 被 丢弃 ， 

本 章 处 理 ACK 标 志 ， 更 新 窗口 信息 ， 处 理 URG 标 志 及 报 文 段 中 携带 的 所 有 数据 ， 最 后 处 
理 FIN 标 志 ， 如 果 需 要 ， 则 调用 kcp_output。 


29.2 ACK 处 理 概 述 


在 本 章 中 ， 我们 首先 讨论 ACK 的 处 理 ， 图 29-1 给 出 了 ACK 处 理 的 框架 。SYN_RCVD 状 态 
需要 特殊 处 理 ， 紧 跟 着 是 其 他 状态 的 通用 处 理 代码 (前 一 章 已 讨论 过 在 LISTEN 和 SYN_SENT 
状态 下 收 到 ACK 时 的 处 理 逻 辑 )。 接 着 是 对 TCPS_FIN_WAIT_1、TCPS_CLOSING 和 
TCPS_LAST_ACK 状 态 的 一 些 特 殊 处 理 ， 因 为 在 这 些 状态 下 收 到 ACK 会 导致 状态 的 转移 。 此 
外 ， 在 TIME_WAIT 状 态 下 收 到 ACK 还 会 导致 2MSL 定 时 器 的 重启 。 


switch (tp-»t state) { 


case TCPS SYN RECEIVED: 
complete processing of passive open and process 
simultaneous open or self-connect; 
/* fall into ... */ 


case TCPS ESTABLISHED: 
case TCPS FIN WAIT 1: 
case TCPS FIN WAIT 2: 
case TCPS CLOSE WAIT: 
case TCPS CLOSING: 
case TCPS LAST ACK: 
case TCPS TIME WAIT: 
process duplicate ACK; 
update RTT estimators; 
if all outstanding data ACKed, turn off retransmission timer; 


remove ACKed data from socket send buffer; 
switch (tp-»t state) { 


case TCPS FIN WAIT 1: 
if (FIN is ACKed) { 
move to FIN WAIT 2 state; 
start FIN WAIT 2 timer; 
} 
break; 


case TCPS CLOSING: 
if (FIN is ACKed) { 


图 29-1 ACK 处 理 框 架 
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move to TIME_WAIT state; 
start TIME_WAIT timer; 


} 
break; 


case TCPS_LAST_ACK: 
if (FIN is ACKed) 
move to CLOSED state; 
break; 


case TCPS TIME WAIT: 
restart TIME WAIT timer; 
goto dropafterack; 


图 29-1 ( 续 ) 


29.3 完成 被 动 打开 和 同时 打开 


图 29-2 给 出 了 如 何 处 理 SYN_RCVD 状 态 下 收 到 的 ACK 报 文 段 。 如 前 一 章 中 提 到 过 的 ， 这 
也 将 完成 被 动 打开 (一 般 情 况 )， 或 者 是 同时 打开 及 自 连 接 (特殊 情况 ) 的 连接 建立 过 程 。 

1. 验证 收 到 的 ACK 
801-806 如果 收 到 的 ACK 确 认 了 已 发 送 的 SYN， 它 必须 大 于 snd_ una (tcp sendseqinit 将 
snd_una 设 定 为 连接 的 ISS，SYN 报 文 段 的 序号 )， 且 小 于 等 于 snd_max。 如 果 条 件 满 足 ， 则 
插口 进入 连接 状态 ESTABLISHED。 


tcp input.c 

792 * Ack processing. 

793 "Yi 

794 switch (tp->t_state) { 

795 a 

796 * In SYN_RECEIVED state if the ack ACKs our SYN then enter 

797 * ESTABLISHED state and continue processing, otherwise 

798 * send an RST. 

799 m 

800 Case TCPS SYN RECEIVED: 

801 if (SEQ GT(tp-»snd una, ti-»ti ack) |l 

802 SEQ GT(ti-»ti ack, tp-»snd max)) 

803 goto dropwithreset; 

804 tcpstat.tcps connects-«-«; 

805 soisconnected(so); 

806 tp-»-»t state = TCPS ESTABLISHED; 

807 /* Do window scaling? */ 

808 if ((tpes»t flags & (TF.RCVD SCALE | TE REQ SCALE)) zz 

809 (TF.RCVD SCALE | TE REO SCALE)) ( 

810 tp-»snd, scale - tp-»requested s scale; 

811 tp-»rcv scale = tp-»request r scale; 

812 ) 

813 (void) tcp reass(tp, (struct tcpiphdr *) 0, (struct mbut *) 0); 

814 tp-»snd wll = ti-»ti seq - 1; 

815 /* fall into ... */ 
tcp input.c 


图 29-2 tcp inputtKZX: 在 SYN_RCVD 状 态 收 到 ACK 
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在 收 到 三 次 担 手 的 最 后 一 个 报 文 段 后 ， 调 用 soisconnected 唤 醒 被 动 打开 的 应 用 进程 
(一 般 为 服务 器 )。 如 果 服 务 器 在 调用 accept 上 阻塞 ， 则 该 调用 现在 返回 。 如 有 果 服 务 故 调用 
select 等 竺 连接 可 读 ， 则 连接 现在 已 经 可 旋 。 

2. 查看 窗口 大 小 选项 
807-812 如果 TCP 曾 发 送 窗 口 大 小 选项 ， 并 且 收 到 了 对 方 的 窗口 大 小 选项 ， 则 在 TCP 控 制 
块 中 保存 发 送 缩放 因子 和 接收 缩放 因子 。 另 外 ，TCP 控 制 块 中 的 snda_scale 和 cvV_scale 
的 默认 值 为 0 (无 缩放 )。 

3. 回应 用 进程 提交 队列 中 的 数据 
813 现在 可 以 癌 应 用 进程 提交 连接 重组 队列 中 的 数据 ， 调 用 cp_reass， 第 二 个 参数 为 空 。 
重组 队列 中 的 数据 可 能 是 SYN 报 文 段 中 携带 的 ， 它 同时 将 连接 状态 变迁 为 SYN_RCVD。 

814 sndq_w11 等 于 收 到 的 序号 减 1， 从 图 29-15 可 知 ， 这 样 将 导致 更 新 3 个 窗口 变量 。 


29.4 快速 重 传 和 快速 恢复 的 算法 


图 29-3 给 出 了 ACK 处 理 的 下 一 部 分 代码 ， 处 理 重复 ACK， 并 决定 是 否 起 用 TCP 的 快速 重 

传 和 快速 恢复 算法 [Jacobson 1990c]。 两 个 算法 各 自 独立 ， 但 一 般 都 在 一 起 实现 [Floyd 1994], 
。 快 速 重 传 算法 用 于 连续 出 现 几 次 (一 般 为 3 次 ) 重 复 ACK 时 ，TCP 认 为 某 个 报 文 段 已 丢失 
并 且 从 中 推断 出 丢失 报 文 段 的 起 始 序 号 ， 丢 失 报 文 段 被 重 传 。RFC 1122 中 的 4.2.2.21 市 
提 到 了 这 一 算法 ， 建 议 TCP 收 到 乱 序 报 文 段 后 ， 立 即 发 送 ACK。 我 们 看 到 ， 在 图 27-15 
中 ，Net/3 正 是 这 样 做 的 。 这 个 算法 最 早出 现在 4.3BSD Tahoe 版 及 后 续 的 Net/1 实 现 中 ， 
丢失 报 文 段 被 重 传 之 后 ， 连 接 执行 慢 起 动 。 

。 快 速 恢复 算法 认为 采用 快速 重 传 算法 之 后 ( 即 丢失 报 文 段 已 重 传 )， 应 执行 拥塞 避免 算法 ， 
而 非 慢 起 动 。 这 样 ， 如 果 拥 塞 不 严重 ， 还 能 保证 较 大 的 吞吐 量 ， 尤 其 窗口 较 大 时 。 这 个 
算法 最 早出 现在 4.3BSD Reno 版 和 后 续 的 Net/2 实 现 中 。 

Net/3 同 时 实现 了 快速 重 传 和 快速 恢复 算法 ， 下 面 将 做 简单 介绍 。 

在 图 24-17 节 中 ， 我 们 提 到 有 效 的 ACK 必 须 满足 下 面 的 不 等 式 : 

snd una < 确认 字段 <= snd max 

第 一 步 只 与 snd_una 做 比较 ， 之 后 在 图 29-5 中 再 进行 不 等 式 第 二 部 分 的 比较 。 分 开 比 较 

的 原因 是 为 了 外 ee uico oii 
1) 如 果 确 认 字 有 段 小 于 等 于 snd_una; 
2) 接收 报 文 段 长 度 为 0; 
3) 窗口 通告 大 小 未 变 
4) 连接 上 部 分 发 送 数 据 未 被 确认 ( 重 传 定时 器 &dE2E); 
5) 接收 报 文 段 的 确认 字段 是 TCP 收 到 的 最 大 的 确认 序号 (确认 字段 等 于 snd_una)。 
之 后 可 确认 报 文 段 是 完全 重复 的 ACK( 测 试 项 1 、2 和 3 在 图 29-3 中 ， 测 试 4 和 5 在 图 29-4 
的 起 始 处 )。 

TCP 统 计 连 续 收 到 的 重复 ACK 的 个 数 ， 保 存在 变量 t_dupacks 中 ， 次数 超 过 门限 
(tcprexmtthresh,，3) 时 ， 丢失 报 文 段 被 重 传 。 这 也 就 是 卷 1 第 21.7 市 中 介绍 的 快速 重 传 算 
法 。 它 与 图 27 -15 中 的 代码 互相 配合 : 当 TCP 收 到 乱 序 报 文 段 时 ， 立 即 生成 一 个 重复 的 ACK， 
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告诉 对 端 报 文 段 有 可 能 丢失 和 等 待 接收 的 下 一 个 序号 值 。 快 速 重 传 算法 是 为 了 让 ITCP 立 即 重 
传 看 上 去 已 经 丢失 的 报 文 段 ， 而 不 是 被 动 地 等 待 重 传 定时 器 超时 。 卷 1 第 21.7 市 举例 详细 说 明 
了 这 个 算法 是 如 何 工作 的 。 


€ ^ tcp input.c 
817 * In ESTABLISHED state: drop duplicate ACKs; ACK out-of-range 
818 * ACKS. If the ack is in the range 

819 * tp-»snd una < ti-»ti. ack <= tp-»snd max 

820 * then advance tp-»snd una to ti-»ti ack and drop 

821 * data from the retransmission queue. If this ACK reflects 
822 * more up-to-date window information we update our window information. 
823 * 

824 case TCPS ESTABLISHED: 

825 case TCPS FIN WAIT 1: 

826 case TCPS FIN WAIT 2: 

827 case TCPS CLOSE, WAIT: 

828 case TCPS CLOSING: 

829 case TCPS, LAST. ACK: 

830 case TCPS TIME WAIT: 

831 if (SEQ LEQ(ti-»ti ack, tp-»snd una)) { 

832 if (ti-»ti len == 0 && tiwin == tp-»snd wnd) ( 

833 tcpstat.tcps rcvdupack-^-»; 

834 f" 

835 * If we have outstanding data (other than 

836 * a window probe), this is a completely 

837 * duplicate ack (ie, window info didn't 

838 * change), the ack is the biggest we've 

839 * seen and we've seen exactly our rexmt 

840 * threshold of them, assume a packet 

841 * has been dropped and retransmit it. 

842 * Kludge snd nxt & the congestion 

843 * window so we send only this one 

844 * packet. 

845 * 

846 * We know we're losing at the current 

847 * window size so do congestion avoidance 

848 * (set ssthresh to half the current window 
849 * and pull our congestion window back to 

850 * the new ssthresh). 

851 * 

852 * Dup acks mean that packets have left the 
853 * network (they're now cached at the receiver) 
854 * so bump cwnd by the amount in the receiver 
855 * to keep a constant cwnd packets in the 

856 * network. 

857 i 


tcp input.c 
图 29-3 tcp_input 函数 ， 判定 完全 重复 的 ACK 报 文 段 


另 一 方面 ， 重 复 ACK 的 接收 方 也 能 确认 某 个 数据 分 组 已 “离开 了 网 络 ”， 因 为 对 端 已 收 
到 了 一 个 乱 序 报 文 段 ， 从 而 开始 发 送 重复 的 ACK。 人 快速 恢复 算法 要 求 连续 收 到 几 个 重复 ACK 
后 ，TCP 应 该 执行 拥塞 避免 算法 (如 降低 速度 )， 而 不 一 定 必须 等 待 连接 两 端 间 的 管道 清空 ( 慢 
起 动 )。“ 离 开 了 网 络 ”指数 据 分 组 已 被 对 端 接收 ， 并 加 入 到 连接 的 重组 队列 中 ， 不 再 滞留 在 
传输 途中 。 
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如 果 前 述 5 项 测试 条 件 只 有 前 3 项 为 真 ， 说 明 ACK 是 重复 报 文 段 ， 统 计 值 tcps_rcvdupack 
加 1 ， 而 连续 重复 ACK 计 数 器 (t_dupacks) 复 位 为 0。 如 果 仅 有 第 一 项 测试 条 件 为 真 ， 则 计数 
e&t dupacks 复 位 为 0。 

图 29-4 给 出 了 快速 重 传 算法 其 余 的 代码 ， 当 所 有 5 个 测试 条 件 全 部 满足 时 ， 根 据 已 连续 收 
到 的 重复 ACK 数 目的 不 同 ， 运 用 快速 重 传 算法 处 理 收 到 的 报 文 段 。 

1) t_dupacks 等 于 3(tcprexmtthresh)， 则 执行 拥塞 避免 算法 ， 并 重 传 丢失 报 


X EE. 


2) t_dupacks 大 于 3， 则 增 大 拥塞 窗口 ， 执 行 正常 的 TCP 输 出 。 
3) t_dupacks 小 于 3， 不 做 处 理 。 


858 
859 
860 
861 
862 
863 
864 
865 


866 
867 
868 
869 
870 
871 
872 
873 
874 
875 
876 
877 
878 
879 
880 
881 
882 
883 
884 
885 
886 
887 


tcp input.c 
if (tp-»t timer[TCPT REXMT] == 0 [| 


ti-»ti. ack !- tp-»snd una) 
tp-»t dupacks = 0; 
else if (««tp-»t dupacks == tcprexmtthresh) { 
tcp seq onxt - tp-»snd nxt; 
u int win = 
min(tp-»snd wnd, tp-»snd cwnd) / 2 / 
tp-»t maxseg; 


1f (win € 2) 
win = 2; 
tp->snd_ssthresh = win * tp->t_maxseg; 
tp->t_timer[TCPT_REXMT] = 0; 
Lp-»t rtt = gi 
tp-»snd nxt = ti-»ti, ack; 
tp-»snd cwnd = tp-»t maxseg; 
(void) tcp. output (tp); 
tp-»snd cwnd = tp-»snd ssthresh + 
tp-»t maxseg * tp-»t dupacks; 
if (SEQ GT(onxt, tp-»snd nxt)) 
tp-»snd. nxt = onxt; 
goto drop; 
) else if (tp-»t dupacks > tcprexmtthresh) { 
tp-»snd cwnd += tp-»t maxseg; 
(void) tcp output (tp); 
goto drop; 
) 
) else 
tp-»-t dupacks = 0; 
break; /* beyond ACK processing (to step 6) */ 


tcp input.c 


图 29-4 tcp inpute: 处 理 重复 的 ACK 


1. 连续 收 到 的 重复 ACK 次 数 己 达到 门限 值 3 
861-868 t dupacks 等 于 3(tcprexmtthresh) 时 ,在 变量 onxt 中 保存 snd nxt 值 , ^ 
慢 起 动 门限 (ssthresh) 等 于 当前 拥塞 窗口 大 小 的 一 半 ， 最 小 值 为 两 个 最 大 报 文 段 长 度 。 这 与 
图 25-27 中 重 传 定时 器 超时 处 理 中 的 慢 起 动 门限 设 定 操作 类 似 ， 但 我 们 将 看 到 ， 超 时 处 理 中 把 
拥塞 窗口 设 定 为 一 个 最 大 报 文 段 长 度 ， 快 速 重 传 算法 并 不 这 样 做 。 

2. 关闭 重 传 定 时 堪 
869-870 关闭 重 传 定时 器 。 为 防止 TCP 正 对 某 个 报 文 段 计 时 ，t_ztt 清 零 。 
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3. 重 传 缺失 报 文 段 | 
871-873 从 连续 收 到 的 重复 ACK 报 文 段 中 可 判断 出 丢失 报 文 段 的 起 始 序号 (重复 ACK 的 确认 
字段 )， 将 其 赋 给 snd_nxt， 并 将 拥塞 窗口 设 定 为 一 个 最 大 报 文 段 长 度 ， 从 而 tcp_output 将 只 
发 送 丢 失 报 文 段 (参见 卷 1 的 图 21-7 中 的 63 号 报 文 段 )。 

4. 设 定 拥塞 窗口 
874-875 拥塞 窗口 等 于 慢 起 动 门限 加 上 对 端 高 速 缓存 的 报 文 段 数 。 “高 速 缓存 ” 指 对 端 已 收 
到 的 乱 序 报 文 段 数 ， 且 为 这 些 报 文 段 发 送 了 重复 的 ACK。 除 非 对 端 收 到 了 丢失 的 报 文 段 (刚刚 
发 送 )， 这 些 缓存 报 文 段 中 的 数据 不 会 被 提交 给 应 用 进程 。 卷 1 的 图 21-10 和 图 21-11 给 出 了 快速 
重 传 算 法 起 作用 时 ,拥塞 窗口 和 慢 起 动 门限 的 变化 情况 。 

5. 设 定 snd_nxt 
876-878 比较 下 一 发 送 序 号 (snd_nxt) 的 先前 值 (onxt) 和 当前 值 ， 将 两 者 中 最 大 的 一 个 重 
新 赋 还 给 snd_nxt， 因 为 重 传 报 文 段 时 ，tcp_output 会 改变 snd_nxt。 一般 情况 下 ， 
snd_nxt 将 等 于 原来 保存 的 值 ， 意味 着 只 有 丢失 报 文 段 被 重 传 ,下 一 次 调用 tcp_output 时 ， 
将 继续 发 送 序 列 中 的 下 一 报 文 段 。 

6. 连续 收 到 的 重复 ACK 数 超过 门限 3 
879-883 因为 t_dqupacks 等 于 3 时 ， 已 重 传 了 丢失 的 报 文 段 ， 再 次 收 到 重复 ACK 说 明 又 有 
男 一 个 报 文 段 离开 了 网 络 。 拥 塞 窗口 大 小 加 1， 调 用 tcp_output 发 送 序 列 中 的 下 一 报 文 段 ， 
并 丢弃 重复 的 ACK( 参 见 卷 1 的 图 21-7 的 67 号 、69 号 和 71 号 报 文 段 )。 
884-885 如 果 收 到 的 报 文 段 中 带 有 重复 的 ACK， 且 长 度 非 零 或 者 通告 窗口 大 小 发 生变 化 ， 
则 执行 这 些 语句 。 此 时 ， 前 面 提 到 的 5 个 测试 条 件 中 只 有 第 一 个 为 真 ， 连 续 收 到 的 重复 ACK 数 

7. 略 过 ACK 处 理 的 其 余部 分 
886 ”break 语句 在 下 列 3 种 情况 下 被 执行 : (1) 前 述 5 个 测试 条 件 中 只 有 第 一 个 条 件 为 真 ，(2) 
只 有 前 3 个 条 件 为 真 ，(3) 重 复 ACK 次 数 小 于 门限 值 3。 任 何 一 种 情况 下 ， 尽 管 收 到 的 是 重复 
ACK， 将 执行 break 语 句 ， 控 制 跳 到 图 29-2 中 switch 语 句 的 结尾 处 ， 在 标注 step6 处 继续 
执行 。 

为 了 理解 前 面 的 窗口 操作 步骤 ， 请 看 下 面 的 例子 。 假 定 对 姗 接收 窗口 只 能 容纳 8 个 报 文 段 ， 
而 本 地 报 文 段 1~8 已 发 送 。 报 文 段 1 丢 失 ， 其 余 报 文 段 均 正常 到 达 且 被 确认 。 收 到 对 报 文 段 2、 
3 和 4 的 确认 后 ， 重 传 丢失 的 报 文 段 (1)。 尽 管 在 收 到 后 续 的 对 报 文 段 5~8 的 确认 后 ，TCP 希 望 能 
够 发 送 报 文 段 9?， 以 保证 高 的 吞吐 率 。 但 窗口 大 小 等 于 8， 禁 止 发 送 报 文 段 9 及 其 后 续 报 文 段 。 
因此 ， 每 当 再 次 收 到 一 个 重复 的 ACK， 就 暂时 把 拥塞 窗口 加 1， 因 为 收 到 重复 的 ACK 告 诉 TCP 
又 有 一 个 报 文 段 已 在 对 端 离 开 了 网 络 。 最 终 收 到 对 报 文 段 1 的 确认 后 ， 下 面 将 介绍 的 代码 会 减 
少 拥塞 窗口 大 小 ， 令 其 等 于 慢 起 动 门限 。 卷 1 的 图 21-10 举 例 说 明了 这 一 过 程 ， 重复 ACK 到 达 
时 ， 增 加 拥塞 窗口 大 小 ， 之 后 收 到 新 的 ACK 时 ， 再 相应 地 减少 拥塞 窗口 。 


29.5 ACK 处 理 


图 29-5 中 的 代码 继续 处 理 ACK。 
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Aoa zx tcp input.c 
889 * If the congestion window was inflated to account 
890 * for the other side's cached packets, retract it. 
891 2y 
892 if (tp->t_dupacks > tcprexmtthresh && 
893 tp->snd_cwnd > tp->snd_ssthresh) 
894 tp->snd_cwnd = tp-»snd ssthresh; 
895 tp->t_dupacks = 0; 
896 if (SEQ GT(ti-»ti ack, tp-»snd max)) ( 
897 tcpstat.tcps, rcvacktoomuch-4- ; 
898 goto dropafterack; 
899 ) 
900 acked = ti-»ti ack - tp-»snd una; 
901 tcpstat.tcps, rcvackpack--«; 
902 tcpstat.tcps rcvackbyte += acked; ' 
tcp input.c 
图 29-5 tcp input 国 数 : 继续 ACK 处 理 
1. 调整 拥塞 窗口 


888-895 如 有 打 连 续 收 到 的 重复 ACK 数 超过 了 门限 值 3， 说 明 这 是 在 收 到 了 4 个 或 4 个 以 上 的 
重复 ACK 后 ， 收 到 的 第 一 个 非 重复 的 ACK。 人 快速 重 传 算法 结束 。 因 为 从 收 到 的 第 4 个 重复 
ACK 开 始 ， 每 收 到 一 个 重复 ACK 就 会 导致 拥塞 窗口 加 1， 如 果 它 已 超过 了 慢 起 动 门限 ， 令 其 
等 于 慢 起 动 门限 。 连 续 收 到 的 重复 ACK 计 数 器 清 零 。 

2. 检查 ACK 的 有 效 性 
896-899 前 面 介绍 过 ， 有 效 的 ACK 必 须 满足 下 列 不 等 式 : 

snd una < 确认 字段 <= snd max 

如 果 确 认 字 段 大 于 snd_max， 可 对 端正 在 确认 了 TCP 尚 未 发 送 的 数据 。 可 能 的 原因 是 ， 
对 于 高 速 连接 ， 某 个 失踪 的 ACK 再 次 出 现时 ， 序 号 已 回 绕 ， 从 图 24-5 可 知 ， 这 是 极为 罕见 的 
(因为 实际 的 网 络 不 可 能 那么 快 )。 

3. 计算 确认 的 字 节 数 
900-902 经 过 前 面 的 测试 ， 已 知 这 是 一 个 有 效 的 ACK。acked 等 于 确认 的 字 节 数 。 

图 29-6 给 出 了 ACK 处 理 的 下 一 部 分 代码 ， 完 成 RTT 测 算 和 重 传 定时 器 的 操作 。 

4. 更 新 RTT 测 算 值 
903-915 如果 时 间 堆 选项 存在 ， 或 者 TCP 对 某 个 报 文 段 计时 且 收 到 的 确认 字段 大 于 该 报 文 
段 的 起 始 序 号 ， 则 调用 t cp_xmit_timer 更 新 RTT 测 算 值 。 注 意 ， 使 用 时 间 稚 时 ， 
tcp_xmit_timer 的 第 二 个 参数 等 于 当前 时 间 (tcp_now) 减 去 收 到 的 时 间 玲 回 显 (ts_ecr) 
加 1( 因 为 函数 处 理 中 减 了 1)。 

由 于 延迟 ACK 的 存在 ， 在 前 面 的 测试 不 等 式 中 应 采用 大 于 号 。 例 如 ， 假 定 TCP 发 送 了 一 
个 报 文 段 ， 携 带 字 市 1~1024， 并 对 其 计时 ， 接 着 又 发 送 了 一 个 报 文 段 ， 携 带 字 节 1025~2048。 
如 果 收 到 的 确认 字段 等 于 2049， 因 为 2049 大 于 1( 计 时 报 文 段 的 起 始 序 号 )，TCP 将 更 新 RTT 测 
算 值 。 

5. 是 否 确认 了 所 有 己 发 送 数据 
916-924 如果 收 到 报 文 段 的 确认 字段 (ti_ack) 等 于 TCP 的 最 大 发 送 序 号 (snd_max)， 说明 
所 有 已 发 送 数 据 都 已 被 确认 。 关 闭 重 传 定时 器 ， 并 置 位 needoutput 标 志 ， 从 而 在 函数 结束 
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时 强迫 调用 tcp_output。 这 是 因为 在 此 之 前 ， 有 可 能 因为 发 送 窗 口 已 满 ，TCP 拒 绝 了 等 待 
发 送 的 数据 ， 而 现在 收 到 了 新 的 ACK ， 确 认 了 全 部 已 发 送 数据 ， 发 送 窗口 能 够 向 右 移 动 (图 
29-8 中 的 snd_una 被 更 新 )， 人 允许 发 送 更 多 的 数据 。 


"7T "T tcp. input.c 

904 -* If we have a timestamp reply, update smoothed 

905 * round-trip time. If no timestamp is present but 

906 * transmit timer is running and timed sequence 

907 * number was acked, update smoothed round-trip time. 

908 * Since we now have an rtt measurement, cancel the 

909 * timer backoff (cf., Phil Karn's retransmit alg.). 

910 * Recompute the initial retransmit timer. 

911 i 

912 if (ts present) 

913 tcp xmit timer(tp, tcp now - ts ecr + 1); 

914 else if (tp-»t rtt && SEQ GT(ti-»ti ack, tp-»t rtseq)) 

915 tcp xmit timer(tp, tp-»t rtt); 

916 /* 

917 * If all outstanding data is acked, stop retransmit 

918 * timer and remember to restart (more output or persist). 

919 * If there is more data to be acked, restart retransmit 

920 * timer, using current (possibly backed-off) value. 

921 "y 

922 if (ti-»ti ack == tp-»snd, max) { 

923 tp-»t timer[TCPT REXMT] = 0; 

924 needoutput - 1; 

925 ) else if (tp-»t timer[TCPT PERSIST] == 0) 

926 tp-»t timer[TCPT REXMT] = tp-»t rxtcur; : 
tcp input.c 


图 29-6 tcp inputrAZE: RTT 测 算 值 和 重 传 定时 器 


6. 存在 未 确认 的 数据 
925-926 由 于 发 送 缓存 中 还 存在 未 被 确认 的 数据 ， 如 果 持 续 定时 器 未 设 定 ， 则 启动 重 传 定 
时 器 ， 时 限 等 于 t_rxtcur 的 当前 值 。 


Karn A FNR iE E 


EE, bR MA T Karn RARO AEE 18921.375):. 如 果 重 传 定时 器 超时 ， 
则 报 文 段 被 重 传 ， 收 到 对 重 传 报 文 段 的 确认 时 ， 不 应 据 此 更 新 RITT 测 算 值 ( 重 传 确认 的 二 义 性 
问题 )。 在 图 25-26 中 ， 我 们 看 到 当 发 生 重 传 时 ， 遵 从 Karn 算 法 ,上 _ztt 被 设 为 0。 如 果 时 间 惟 
不 存在 ， 且 收 到 的 是 对 重 传 报 文 段 的 确认 ， 则 图 29-6 中 的 代码 不 会 更 新 RTT 测 算 值 ， 因 为 此 时 
t_rtt 等 于 0。 但 如 果 时 间 礁 存在 ， 则 不 查看 t_rtt 值 ， 允 许 利 用 收 到 的 时 间 惟 回 显 字段 更 新 
RTT 测 算 值 。 根 据 RFC 1323， 时 间 惟 的 运用 不 存在 二 义 性 ， 因 为 ts_ecz 的 值 复制 自 被 确认 
的 报 文 段 。Karn 算 法 中 关于 重 传 报 文 段 时 应 采用 指数 退 避 的 策略 依旧 有 效 。 

图 29-7 给 出 了 ACK 处 理 的 下 一 部 分 代码 ， 更 新 拥塞 窗口 。 


WAY e 7 000 n ERREUR 


928 * When new data is acked, open the congestion window. 
929 * If the window gives us less than ssthresh packets 


图 29-7 tcp_input 国 数 : 啊 应 收 到 的 ACEK， 打 开 拥 塞 窗口 
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930 * in flight, open exponentially (maxseg per packet). 
931 * Otherwise open linearly: maxseg per window 
932 * (maxseg^2 / cwnd per packet), plus a constant 
933 * fraction of a packet (maxseg/8) to help larger windows 
934 * open quickly enough. 
935 *y 
936 ( 
937 u int CW - tp-»snd cwnd; 
938 u int incr = tp-»t maxseg; 
939 if (cw » tp-»snd ssthresh) 
940 incr = incor * inor / cw + incr / 8; 
941 tp-»snd cwnd = min(cw + incr, TCP MAXWIN << tp-»snd scale); 
942 } ; 
tcp input.c 
图 29-7 (£x) 
1. 更 新 拥塞 窗口 


927-942 慢 起 动 和 拥塞 避免 的 一 条 原则 是 收 到 ACK 后 将 增 大 拥塞 窗口 。 默 认 情 况 下 ， 每 收 
到 一 个 ACK( 慢 起 动 )， 拥 塞 窗 口 将 加 1。 但 如 果 当 前 拥塞 窗口 大 于 慢 起 动 门限 ， 增 加 值 等 于 1 
除 以 拥塞 窗口 大 小 ， 并 加 上 一 个 常量 。 表 达 式 


incr * incr / cw 


等 于 


t maxseg * t maxseg / snd cwnd 


即 1 除 以 拥塞 窗口 ， 因 为 sndq_cwnd 的 单位 为 字 节 ， 而 非 报 文 段 。 表 达 式 的 常量 部 分 等 于 最 大 
报 文 段 长 度 的 118。 此 外 ， 拥 塞 窗 口 的 上 限 等 于 连接 发 送 窗口 的 最 大 值 。 算 法 的 举例 参见 卷 1 
8721.85, 


添加 一 个 常量 (最 大 报 文 段 长 度 的 1/8) 是 错误 的 [Floyd 1994]。 但 它 一 直 存 在 于 
BSD 源 码 中 ， 从 4.3BSD 到 4.4BSD 和 Net/3， 应 将 其 删除 。 


图 29-8 给 出 了 tcp_input 下 一 部 分 的 代码 ， 从 发 送 缓存 中 删除 已 确认 的 数据 。 


tcp_input.c 
943 if (acked > so-»so snd.sb cc) { 
944 tp-»snd wnd -= so-»so snd.sb cc; 
945 sbdrop(&so-»so snd, (int) so-»so snd.sb cc); 
946 ourfinisacked - 1; | 
947 ) else ( 
948 sbdrop(&so-»so snd, acked); 
949 tp-»snd wnd -= acked; 
950 ourfinisacked - 0; 
95] ) 
952 if (so-»so snd.sb flags & SB NOTIFY) 
953 sowwakeup (so); 
954 tp->snd_una = ti->ti_ack; 
955 if (SEQ LT(tp-»snd nxt, tp-»snd una)) 
956 tp-»snd nxt = tp-»snd una; i 

tcp input.c 


图 29-8 tcp_input 函 数 : 从 发 送 缓存 中 删除 已 确认 的 数据 


2. 从 发 送 缓存 中 删除 已 确认 的 字 节 
943-946 如 果 确认 字 节 数 超过 发 送 缓 存 中 的 字 节 数 ， 则 从 snd_wnd 中 减 去 发 送 缓存 中 的 字 
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节 数 ， 并 且 可 知 本 地 发 送 的 FIN 已 被 确认 。 调 用 sbdrop 从 发 送 缓存 中 删除 所 有 字 节 。 能 够 以 
这 种 方式 检查 对 FIN 报 文 段 的 确认 ， 是 因为 FIN 在 序号 空间 中 只 占 一 个 字 节 。 
947-951 如 果 确 认 字 节 数 小 于 或 等 于 发 送 缓存 中 的 字 节 数 ，ourfinisacked 等 于 0， 并 从 
发 送 缓存 中 丢弃 acked 字 有 的 数据 。 

3. 唤醒 等 待 发 送 缓存 的 进程 
951-956 调用 sowwakeup 唤 醒 所 有 等 待 发 送 缓存 的 应 用 进程 ， 更 新 snd_una 保 存 节 老 的 
未 被 确认 的 序号 。 如 果 sna_una 的 新 值 超过 了 snqa_nxt ， 则 更 新 后 者 ， 因 为 这 说 明 中 间 的 数 
据 也 被 确认 。 

图 29-9 举 例 说 明了 为 什么 snd_nxt 保 存 的 序号 有 可 能 小 于 snd_una。 假定 传输 了 两 个 报 
文 段 ， 第 一 个 携带 字 节 1~512， 而 第 二 个 携带 字 市 513~1024。 

1 2 e 512 513 514 Am 1024 1025 


一 个 报 文 段 一 个 报 文 段 


snd una snd nxt 
snd max 


图 29-9 连接 上 发 送 了 两 个 报 文 段 


确认 返回 前 ， 重 传 定时 器 超时 。 图 25-26 中 的 代码 将 snd_nxt 设 定 为 snd_una， 进入 慢 
起 动 状 态 ， 调 用 tcp_output 重 传 携带 1~$12 字 节 的 报 文 段 。tcp_output 将 snd_nxt 增 加 
为 513， 如 图 29-10 所 示 。 


1 2 sis 512 513 514 vea 1024 1025 


报 文 段 重 传 


snd una snd nxt snd max 


图 29-10 EEr ex ERIT Jc HJ PEE I] 29-9) 
此 时 ， 确 认 字 段 等 于 1025$ 的 ACK 到 达 ( 或 者 是 最 初 发 送 的 两 个 报 文 段 或 者 是 ACK 在 网 络 
中 被 延迟 )。 这 个 ACK 是 有 效 的 ， 因 为 它 小 于 等 于 snda_max， 但 它 也 将 小 于 更 新 后 的 


snd una 值 。 


一 般 性 的 ACK 处 理 现在 已 结束 ， 图 29-11 中 的 switch 语 句 接着 处 理 了 4 种 特殊 情况 。 


tcp input.c 
957 switch (tp-»t state) ( 
958 p 
959 * In FIN WAIT 1 state in addition to the processing 
960 * for the ESTABLISHED state if our FIN is now acknowledged 
961 * then enter FIN WAIT 2. 
962 vir d 
963 case TCPS FIN WAIT 1: 
964 if (ourfinisacked) ( 
965 jx 
966 * If we can't receive any more 
967 * data, then closing user can proceed. 
968 * Starting the timer is contrary to the 


图 29-11 tcp input K$: 在 FIN_WAIT_1 状 态 时 收 到 了 ACK 
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969 * specification, but if we don't get a FIN 

970 * we'll hang forever. 

971 aa 

972 if (so->so_state & SS CANTRCVMORE) { 

973 soisdisconnected(so); 

974 tp-»t timer[TCPT 2MSL] = tcp maxidle; 

975 } 

976 tp->t_state = TCPS_FIN_WAIT_2; 

977 } 

978 break; f 

tcp input.c 

图 29-11 (£x) 


4. 在 FIN_WAIT_1 状 态 时 收 到 了 ACK 
958-971 此 时 ， 应 用 进程 已 关闭 了 连接 ，TCP 已 发 送 了 FIN，,， 但 还 有 可 能 收 到 对 在 FIN 之 前 
发 送 的 报 文 段 的 确认 。 因 此 ， 只 有 在 收 到 FIN 的 确认 后 ， 连 接 才 会 转移 到 FIN_WAIT_2 状 态 。 
图 29-8 中 ，ouzfinisacked 标 志 已 置 位 ， 这 取决 于 确认 的 字 节 数 是 否 超过 发 送 缓存 中 的 数 
据 量 。 

5. E 4EFIN WAIT _2 定 时 器 
972-975 我 们 在 2$.6 节 中 介绍 了 Net3 如 何 设 定 FIN_WAIT_2 定 时 右 ， 以 防止 在 FIN_WAIT_2 
状态 无 限 等 待 。 只 有 当 应 用 进程 完全 关闭 了 连接 (如 close 系 统 调用 ， 或 者 在 应 用 进程 被 某 个 
信号 量 终 止 时 与 close 类 似 的 内 核 调用 )， 而 不 是 半 关 闭 时 (如 已 发 送 了 FIN， 但 应 用 进程 仍 在 
连接 上 接收 数据 )， 定 时 絮 才 会 启动 。 

图 29-12 给 出 了 在 CLOSING 状 态 收 到 ACK 时 的 处 理 代 码 。 


373 23 tcp input.c 
980 * In CLOSING state in addition to the processing for 
981 * the ESTABLISHED state if the ACK acknowledges our FIN 
982 * then enter the TIME-WAIT state, otherwise ignore 
983 * the segment. 
984 *f 
985 case TCPS CLOSING: 
986 if (ourfinisacked) ( 
987 tp-»t state = TCPS TIME WAIT; 
988 tcp. canceltimers(tp); 
989 tp-»t timer[TCPT 2MSL] - 2 * TCPTV MSL; 
990 soisdisconnected(so); 
991 ) 
293 break; l 
Icp input.c 


图 29-12 tcp inputrAZE: 在 CLOSING 状 态 收 到 ACK 


6. 在 CLOSING 状 态 收 到 ACK 
979-992 如果 收 到 的 ACK 是 对 FIN 的 确认 (而 非 之 前 发 送 的 数据 报 文 段 )， 则 连接 转移 到 
TIME_WAIT 状 态 。 所 有 等 待 的 定时 器 都 被 清除 (如 等 待 的 重 传 定时 器 )，TIME_WAIT 定 时 器 被 
启动 ， 时 限 等 于 两 倍 的 MSL。 

图 29-13 给 出 了 在 LAST_ACK 状 态 收 到 ACK 的 处 理 代码 。 


784 


993 
994 
395 
996 
987 
998 
999 
1000 
1001 
1002 
1003 
1004 
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tcp input.c 


* In LAST ACK, we may still be waiting for data to drain 
* and/or to be acked, as well as for the ack of our FIN. 
* If our FIN is now acknowledged, delete the TCB, 
* enter the closed state, and return. 
*J/ 
case TCPS LAST ACK: 
if (ourfinisacked) ( 
tp = tcp.clóse(tp); 
goto drop; 
) 


break; 
tcp input.c 


图 29-13 tcp input 函数 : 在 LAST_ACK 状 态 收 到 ACK 


7. 在 LAST_ACK 状 态 收 到 ACK 
993-1004 ”如果 FIN 已 确认 ， 连 接 将 转移 到 CLOSED 状 态 。tcp_close 将 负责 这 一 状态 变 
了 迁 ， 并 同时 释放 Internet PCB 和 和 TCP 控制 块 。 

图 29-14 给 出 了 在 TIME_WAIT 状 态 收 到 ACK 的 处 理 代 码 。 


1005 
1006 
1007 
1008 
1009 
1010 
1011 
1012 
1013 
1014 


F tcp input.c 
* In TIME WAIT state the only thing that should arrive 
* is a retransmission of the remote FIN.  Acknowledge 
* it and restart the finack timer. 
Tf 

case TCPS TIME WAIT: 
tp-»t timer[TCPT 2MSL] = 2 * TCPTV MSL; 
goto dropafterack; 


tcp input.c 


图 29-14 tcp inputtKZE: 在 TIME_WAIT 状 态 收 到 ACK 


8. 在 TIME_WAIT 状 态 收 到 ACK 
1005-1014 此 时 ， 连 接 两 端 都 已 发 送 过 FIN， 且 两 个 FIN 都 已 被 确认 。 但 如 末 TCP 对 远 辣 
FIN 的 确认 丢失 ， 对 端 将 重 传 FIN( 带 有 ACK)。TCP 丢 弃 报 文 段 并 重 传 ACKE 。 此 外 ， 
TIME_WAIT 定 时 器 必须 被 重 传 ， 时 限 等 于 两 倍 的 MSL。 


29.6 更 新 窗口 信息 


TCP 控 制 块 中 还 有 两 个 窗口 变量 我 们 未 曾 提 及 : snd wllflsnd w12, 

。nd_w11 记 录 最 后 接收 报 文 段 的 序号 ， 用 于 更 新 发 送 窗 口 (snd_wnd)。 

。sndq_w12 记 录 最 后 接收 报 文 段 的 确认 序号 ， 用 于 更 新 发 送 窗 口 。 

到 目前 为 止 ， 只 在 连接 建立 时 (主动 打开 、 被 动 打开 或 同时 打开 ) 遇 到 过 这 两 个 变 
量 ，snd_wll1 被 设 定 为 ti_seq 减 1。 当 时 说 是 为 了 保证 窗口 更 新 ， 下 面 的 代码 将 证 明 这 


一 点 。 


如 果 下 列 3 个 条 件 中 的 任 一 个 被 满足 ， 则 应 根据 接收 报 文 段 中 的 通告 窗口 值 (tiwin) 更 新 
发 送 窗口 (snd_wnd): 
1) 报 文 段 携带 了 新 数据 。 因 为 snd_w11 保 存 了 用 于 更 新 窗口 的 最 后 接收 报 文 段 的 起 始 序 
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号 ， 如 果 snd_w1l1<ti_seq， 说 明 此 条 件 为 真 。 

2) 报 文 段 未 携带 新 数据 (snd_w11 等 于 ti_seg)， 但 报 文 段 确认 了 新 数据 。 因 为 
snd_w12 保 存 了 用 于 更 新 窗口 的 最 后 接收 报 文 段 的 确认 序号 ， 如 果 snd_w12<ti_ack， 说 
明 此 条 件 为 真 。 

3) 报 文 段 未 携带 新 数据 ， 也 未 确认 新 数据 ， 但 通告 窗口 大 于 当前 发 送 窗 口 。 

这 些 测 试 条 件 的 目的 是 为 了 防止 旧 的 报 文 段 影响 发 送 窗 口 ， 因 为 发 送 窗口 并 非 绝 对 的 序 

序列 ， 而 是 从 snd_una 算 起 的 偏 移 量 。 

图 29-15 给 出 了 更 新 发 送 窗口 的 代码 。 


1015 step6: M ip dde 

1016 fx 

1017 * Update window information. 

1018 * Don't look at window if no ACK: TAC's send garbage on first SYN. 

1019 z 

1020 if ((tiflags & TH ACK) && 

1021 (SEQ LT(tp-»snd wll, ti-»ti seq) || tp-»snd wll == ti-»ti seq && 

1022 (SEQ LT(tp-»snd wl2, ti-»ti ack) |! 

1023 tp-»snd wl2 == ti->ti ack && tiwin > tp-»snd wnd))) ( 

1024 /* keep track of pure window updates */ 

1025 if (ti-»ti. len == O0 && 

1026 tp-»snd w12 == ti-»ti ack && tiwin > tp-»snd wnd) 

1027 tcpstat.tcps rcvwinupd--«; 

1028 tp-»snd wnd = tiwin; 

1029 tp-»snd, wll - ti-»ti seq; 

1030 tp-»snd w12 = ti-»ti, ack; 

1031 if (tp-»snd wnd > tp-»max sndwnd) 

1032 tp-»max sndwnd - tp-»snd wnd; 

1033 needoutput - 1; 

1034 ) : 
tcp. input.c 


图 29-15 tcp_input 函 数 : 更 新 窗口 信息 


1. 是 否 需 要 更 新 发 送 窗口 
1015-1023 if 语 句 检 查 报 文 段 的 ACK 标 志 是 否 置 位 ， 且 前 述 3 个 条 件 中 是 否 有 一 个 被 满足 。 
前 面 介绍 过 ， 在 LISTEN 状 态 或 SYN_SENT 状 态 收 到 SYN 后 ， 控 制 将 跳 转 到 step6， 而 在 
LISTEN 状 态 收 到 的 SYN 不 带 ACK。 


注释 中 的 TAC 指 “ 终 闹 接 入 控制 器 (terminal access controller)”, & ARPANET E 
的 Telnet 客 户 ， 


1024-1027 如 果 收 到 一 个 纯 窗口 更 新 报 文 段 ( 长 度 为 0，ACK 未 确认 新 数据 ， 但 通告 窗口 增 
加 )， 统 计 值 tcps_rcvwinupd 递 增 。 

2. 更 新 变量 
1028-1033 更 新 发 送 窗 口 ， 保 存 新 的 snd_w11 和 sndq_w12 值 。 此 外 ， 如 果 新 的 通告 窗口 
是 TCP 从 对 端 收 到 的 所 有 窗口 通告 中 的 最 大 值 ， 则 新 值 被 保存 在 nax_sndwnd 中 。 这 是 为 了 
猜测 对 端 接收 缓存 的 大 小 ， 在 图 26-8 中 用 到 了 此 变量 。 更 新 snd_wnd 后 ， 发 送 窗 口 可 用 空间 
增加 ， 从 而 能 够 发 送 新 的 报 文 段 ， 因 此 ，needoutput 标 志 置 位 。 
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29.7 紧急 方式 处 理 
TCP 输 入 处 理 的 下 一 部 分 是 URG 标 志 置 位 时 的 报 文 段 。 如 图 29-16 所 示 。 


TT m tcp input.c 
1036 * Process segments with URG. 
1037 si 
1038 if ((tiflags & TH URG) && ti-»ti urp && 
1039 TCPS HAVERCVDFIN(tp-»5t state) == 0) 1 
1040 /* 
1041 * This is a kludge, but if we receive and accept 
1042 * random urgent pointers, we'll crash in 
1043 * soreceive. It's hard to imagine someone 
1044 * actually wanting to send this much urgent data. 
1045 * Jy 
1046 if (ti-»ti urp + so-»so rcv.sb cc > sb max) { 
1047 ti-»tli urp = 8; y/* XXX *J 
1048 tirlags &- "TH.URG; /* XXX */ 
1049 goto dodata; y* XXX */ 
1050 ) 
tcp input.c 


图 29-16 tcp inputIK ZR: 紧急 方式 的 处 理 


1. 是 否 需要 处 理 URG 标 志 
1035-1039 只 有 满足 下 列 条 件 的 报 文 段 才 会 被 处 理 : URG 标 志 置 位 ， 紧 急 数 据 偏 移 量 
(ti_urp) 非 零 ， 连 接 还 未 收 到 FIN。 只 有 当 连 接 的 状态 等 于 TIME_WAIT 时 ， 宏 
TCPS_HAVERCVDFIN 才 会 为 真 ， 因 此 ， 连 接 处 于 任何 其 他 状态 时 ，URG 都 会 被 处 理 。 在 后 
面 的 注释 中 提 到 ， 连 接 处 于 CLOSE_WAIT、CLOSING、LAST_ACK 和 TIME_WAIT 等 几 个 状 
态 时 ，URG 标 志 会 被 忽略 ， 这 种 说 法 是 错误 的 。 

2. 忽略 超出 的 紧急 指针 
1040-1050 如 果 紧 急 数据 偏 移 量 加 上 接收 缓存 中 已 有 的 数据 超过 了 插口 缓存 可 容纳 的 数据 

， 则 忽略 紧急 标志 。 紧 急 数 据 偏 移 量 被 清 零 ，URG 标 志 被 清除 ， 剩 余 的 紧急 方式 处 理 逻 辑 
vorm 

图 29-17 给 出 了 tcp_input 下 一 部 分 的 代码 ， 处 理 紧 急 指针 。 


1064 
1065 i 


/ 


T m cp. input.c 
1052 * If this segment advances the known urgent pointer, 
1053 * then mark the data stream. This should not happen 
1054 * in CLOSE WAIT, CLOSING, LAST ACK or TIME WAIT states since 
1055 * a FIN has been received from the remote side. 
1056 * In these states we ignore the URG. 
1057 * 
1058 * According to RFC961 (Assigned Protocols), 
1059 * the urgent pointer points to the last octet 
1060 * of urgent data. We continue, however, 
1061 * to consider it to indicate the first octet 
1062 * of data past the urgent section as the original 
1063 * spec states (in one of two places). 
* 
f 


(SEQ GT(ti-»ti seq + ti-»ti urp, tp-»rcv up)) ( 


图 29-17 tcp inputt&Zk: 处 理 收 到 的 紧急 指针 


1066 
1067 
1068 
1069 
1070 
1071 
1072 
1073 
1074 
1075 
1076 
1077 
1078 
1079 
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1081 
1082 
1083 
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1086 
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tp-»rcv up = ti-»ti seq + ti-»ti urp; 
So-»so oobmark = so-»so rcv.sb cc + 


(tp-»rcv up = tp-»rcv.nxt) = 1; 
if (so-»so oobmark == 0) 
SO-»SO State |= SS RCVATMARK; 
sohasoutofband(so); 
tp-»t oobflags &- ~ (TCPOOB_ HAVEDATA | TCPOOB HADDATA); 


/* 
* Remove out-of-band data so doesn't get presented to user. 
* This can happen independent of advancing the URG pointer, 
* but if two URG's are pending at once, some out-of-band 
* data may creep in... ick. 
"i 
if (ti-»ti urp <= ti-»ti len 
&ifdef SO OOBINLINE 
&& (SO-»SO Options & SO OOBINLINE) == 
Kendif 
) 
tcp pulloutofband(so, ti, m); 
) else ( 
/* 
* If no out-of-band data is expected, pull receive 
* urgent pointer along with the receive window. 
*/ 
if (SEQ GT(tp-»rcv nxt, tp-»rcv up)) 
tb-»rov up = tp-»rcv nxt? 


tcp input.c 


图 29-17 (f) 


1051-1065 如 果 接 收报 文 段 的 起 始 序号 加 上 紧急 数据 偏 移 量 超过 了 当前 接收 紧急 指针 ， 说 
明 已 收 到 了 一 个 新 的 紧急 指针 。 例 如 ， 图 26-30 中 的 携带 3 字 节 的 报 文 段 到 达 接 收 方 ， 如 图 29- 


18 所 示 。 

一 般 情况 下 ， 收 到 的 紧急 指针 (rcv_up) 接收 的 报 文 自 
等 于 rcv_nxt 。 这 个 例子 中 ， 因 为 if 语句 mendi 
为 真 (4 加 3 大 于 4)，rcv_up 的 新 值 等 于 7。 

3. 计算 收 到 的 紧急 指针 
1066-1070 计算 插口 接收 缓存 中 带 外 数据 "T 
的 分 界 点 ， 应 计 和 人 接收 缓存 中 已 有 的 数据 rcv_up 
(so_rcv.sb_cc)。 在 上 面 的 例子 中 ， 假 定 Bepe 
接收 缓存 为 空 ，so_oobmark 等 于 2; 序号 为 TS 


6 的 字 市 被 认为 是 带 外 数据 。 如 有 果 这 个 带 外 数 


图 29-18 图 26-30 中 发 送 的 报 文 段 到 达 接 收 方 


据 标 记 等 于 0， 说 明 插 口 正 处 在 带 外 数据 分 界 
点 上 。 如 果 发 送 带 外 数据 的 send 系 统 调用 给 定 长 度 为 1， 并 且 这 个 报 文 段 到 达 对 端 时 接收 缓存 
为 空 ， 就 会 发 生 这 一 现象 ， 同 时 也 再 次 重申 了 Berkeley 系 统 认 为 紧急 指针 应 指 癌 带 外 数据 后 的 
AFi. 

4. m ER TCP RADA 
1071-1072 调用 sohasoutofband 告 知 应 用 进程 有 带 外 数据 到 达 了 插口 ， 清 除 两 个 标志 
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TCPOOB HAVEDATA 和 TCPOOB HADDRATRA， 它 们 用 于 图 30-8 中 的 PRU_RCVOOB 请 求 处 理 。 

5. 从 正 第 的 数据 流 中 提取 带 外 数据 
1074-1085 如果 紧 急 数 据 偏 移 量 小 于 等 于 接收 报 文 段 中 的 字 市 数 ， 说 明 带 外 数据 包含 在 报 
文 段 中 。TCP 的 紧急 方式 允许 紧急 数据 偏 移 量 指 同 沿 未 收 到 的 数据 。 如 果 定 义 了 
SO_OOBINLINE 常 量 ( 正 常情 况 下 ，Net/3 定 义 了 此 常量 )， 而 且 示 选用 对 应 的 插口 选项 ， 则 接 
收 进程 将 从 正常 的 数据 流 中 提取 带 外 数据 ， 并 保存 在 t_iobc 变 量 中 。 完 成 这 一 功能 的 函数 ， 
是 我 们 将 在 下 一 市 介绍 的 tcp_pulloutofband.。 

注意 ， 无 论 紧 急 指 针 指 向 的 字 节 是 否 可 读 ，TCP 都 将 通知 接收 进程 发 送 方 已 进入 紧急 方 
式 。 这 是 TCP 紧 急 方式 的 一 个 特性 。 

6. 如 果 不 处 于 紧急 方式 ， 调 整 接收 紫 总 指针 
1086-1093 在 接收 方 未 处 理 紧 急 指 针 时 ， 如 果 rcv_nxt 大 于 接收 紧急 指针 ， 则 Ycv_up 同 
右 移 动 ， 并 等 于 rcv_nxt。 这 使 接收 紧急 指针 一 直 指 问 接 收 窗口 的 左 侧 ， 确 保 在 收 到 URG 标 
志 时 ， 图 29-17 起 始 处 的 宏 SEQ_GT 能 够 得 出 正确 的 结果 。 


如 果 要 实现 习题 26.6 中 提出 的 方案 ， 也 必须 相应 修改 图 29-16 和 图 29-17 中 的 
代码 。 


29.8 tcp pulloutofband ži 


图 29-17 中 的 代码 调用 了 这 个 图 数 ， 如 林 : 

1) 接收 报 文 段 中 带 有 紧急 方式 标志 ; 并 且 

2) 带 外 数据 包含 在 接收 报 文 段 中 (如 ， 紧 急 指 针 指 向 接收 报 文 段 );， 并 且 

3) 未 选用 SO OOBINLINE3X&JU., 

函数 从 正常 的 数据 流 (保存 接收 报 文 段 的 mbuf 链 ) 中 提取 带 外 字 节 ， 并 保存 在 连接 TCP 控 制 
块 中 的 t_iobc 变 量 中 。 应 用 进程 通过 recv 系 统 调用 ， 置 位 MSG_00B 标 志 ， 读 取 这 个 变量 : 
图 30-8 中 的 PRU RCVOOB 请 求 。 图 29-19 给 出 了 函数 代码 。 





tcp input.c 
1282 void nid 


1283 tcp pulloutofband(so, ti, m) 
1284 struct socket *so; 

1285 struct tepiphdr tE 

1286 struct mbuf *m; 


1287 ( 

1288 int cnt = ti-»ti, urp = 1; 

1289 while (cnt >= 0) 1 

1290 if (m-»m len > cnt) { 

1291 char töp = mtod(m, caddr t) + cent; 
1292 struct tcpcb *tp = sototcpcb(so); 
1293 Ep-St iobcC = “Op? 

1294 tp-»t oobflags |= TCPOOB HAVEDATA; 
1295 bcopy(cp + 1, cp, (unsigned) (m-»m len = cnt = 1))]; 
1296 m-»m len--; 

1297 return; 

1298 ) 

1299 cnt -- m-»m len; 


图 29-19 tcp pulloutofbandIR7&: 将 带 外 数据 保存 在 t_iobc 变 量 中 
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1300 m - m-»m next; 

1301 lt (m == 0) 

1302 break; ` 

1303 ) 

1304 panic ("tcp pulloutofband"); 
1305 } 


tcp input.c 


图 29-19 (£3) 


1282-1289 考虑 图 29-20 中 的 例子 。 紧 急 数 据 偏 移 量 等 于 3， 因 此 紧急 指针 等 于 7， 带 外 字 节 
的 序号 等 于 6。 接 收报 文 段 携带 了 5 字 节 的 数据 ， 全 部 保存 在 一 个 mbuf 中 , 

变量 cnt 等 于 2， 因 为 m_len( 等 于 5) 大 于 2， 执 行 i£f 语 句 为 真 部 分 的 代码 。 
1290-1298 cp 指向 序号 为 6 的 字 节 ， 它 被 放 和 保存 带 外 字 节 的 变量 t_iobc 中 。 置 位 
TCPOOB_HAVEDATA 标 志 ， 调 用 bcopy 将 接 下 来 的 两 个 字 节 (序号 7 和 8) 左 移 1 字 节 ， 如 图 29-21 
所 示 。 


m len-ti.lenz5 
ti Len=5 
< 一 


4 5 6 7 8 
m len=4 
4 5 7 8 
rcv nxt Ihe rcp up 
ti seq 4 
ti urp-3 rcv nxt 
紧急 数据 偏 移 量 ti_seq 
图 29-20 携 市 带 外 字 节 的 报 文 段 图 29-21 移 走 带 外 数据 后 的 结果 ( 接 图 29-20) 


注意 ， 数 字 7 和 8 指数 据 字 节 的 序号 ， 而 不 是 其 内 容 。mbnut 的 长 度 从 5 减 为 4， 但 ti_len 
仍 等 于 5 不 变 ， 这 是 为 了 按 序 把 报 文 段 放 和 插口 的 接收 缓存 。TCP_RERASS 宏 和 tcp_reass 国 
数 (在 下 一 市 调用 ) 都 会 给 rcv_nxt 增 加 ti _len， 本 例 中 ti_len 必 须 等 于 5， 因 为 下 一 个 等 
待 接 收 的 序号 等 于 9。 还 请 注意 ， 函 数 没 有 对 第 一 个 mbuf 中 的 数据 分 组 首部 长 度 
(m_pkthdr.1len) 减 1， 这 是 因为 负责 把 数据 添加 到 插口 接收 缓存 的 sbappend 不 使 用 此 长 
度 值 。 

跳 至 链 中 的 下 一 个 mbuf 
1299-1302 如 采 市 外 数据 未 保存 在 此 mbuf 中 ， 则 从 cnt 中 减 去 mbuf 中 的 字 节 数 ， 处 理 链 中 
的 下 一 个 mbuf。 因 为 只 有 当 紧 急 数 据 移 量 指向 接收 报 文 段 时 ， 才 会 调用 此 国 数 ， 所 以 ， 如 果 
链 已 结束 ， 不 存在 下 一 个 mbuf， 则 执行 break 语 句 ， 跳 转 到 标注 Panic 处 。 


29.9 处 理 已 接收 的 数据 


tcp_input 接 着 提取 收 到 的 数据 (如 末 存 在 )， 将 其 添加 到 插口 接收 缓存 ， 或 者 放 入 插口 
的 乱 序 重组 队列 中 。 图 29-22 给 出 了 完成 此 项 功能 的 代码 。 
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1094 dodata: /* XXX */ EP 
1095 
1096 * Process the segment text, merging it into the TCP sequencing queue, 
1097 * and arranging for acknowledgment of receipt if necessary. 
1098 * This process logically involves adjusting tp-»rcv wnd as data 
1099 * is presented to the user (this happens in tcp usrreq.c, 
1100 * case PRU RCVD). If a FIN has already been received on this 
1101 * connection then we just ignore the text. 
1102 ai 
1103 if ((ti-»ti len || (tiflags & TH FIN)) && 
1104 TCPS. HAVERCVDFIN(tp-»t. state) == 0) { 
1105 TCP REASS(tp, ti, m, so, tiflags); 
1106 yx 
1107 * Note the amount of data that peer has sent into 
1108 * our window, in order to estimate the sender's 
1109 * buffer size. 
1110 Ay 
1111 len = so-»so rcv.sb hiwat - (tp-»rcv adv - tp-»rcv nxt); 
1112 ) else ( 
1113 m freem(m); 
1114 tiflags &- TH FIN; 
1115 ) i 
tcp input.c 


图 29-22 tcp inputt&Zk: 把 收 到 的 数据 放 入 插口 接收 队列 


1094-1105 报 文 段 数据 将 被 处 理 。 如 林 : 

1) 接收 数据 的 长 度 大 于 0， 或 者 FIN 标 志 置 位 ，; 

2) 连接 还 未 收 到 FIN。 

则 调用 宏 TCP_REASS 处 理 数据 。 如 果 数 据 次 序 正确 (如 ， 连 接 等 待 接收 的 下 一 序号 )， 置 位 延 
述 ACK 标 志 ， 增 加 rcv_nxt， 并 把 数据 添加 到 插口 的 接收 缓存 中 。 如 果 数 据 次 序 错误 ， 宏 会 
调用 cp_reass 国 数 ， 把 数据 加 入 到 连接 的 重组 队列 中 (新 到 数据 有 可 能 填充 队列 中 的 缺口 ， 
从 而 将 已 排队 的 数据 添加 到 插口 的 接收 缓存 中 )。 

前 面 介 绍 过 ， 宏 的 最 后 一 个 参数 (tif1ags) 是 可 修改 的 。 特 别 地 ， 如 果 数 据 次 序 错误 ， 
tcp_reass 邻 tiflags 等 于 0， 清 除 FIN 标 志 ( 如 果 它 已 置 位 )。 这 也 就 是 为 什么 即使 报 文 段 中 
没有 数据 ， 只 要 FIN 置 位 ，if 语 句 也 为 真 。 | 

考虑 下 面 的 例子 。 连 接 建 立 后 ， 发 送 方 立即 发 送 报 文 段 : 一 个 携带 字 节 1~1024， 另 一 个 
携带 字 节 1025~2048， 还 有 一 个 未 带 数据 的 FIN。 第 一 个 报 文 段 丢失 ， 因 此 ， 第 二 个 报 文 段 到 
达 时 ( 字 节 1025~2048)， 接 收 方 将 其 放 入 乱 序 重组 队列 ， 并 立即 发 送 ACK。 当 第 三 个 带 有 FIN 
标志 的 报 文 段 到 达 时 ， 图 29-22 中 的 代码 被 执行 。 即 使 数据 长 度 等 于 0， 因 为 FIN 置 位 ， 导 致 调 
用 TCP REASS， 它 接着 调用 tcp_reass。 因 为 ti _seq(2049，FIN 的 序号 ) 不 等 于 rcv_nxt 
(1), tcp reass 返 回 0( 图 27-23)。 在 TCP_REASS 宏 中 ，tiflags 被 设 为 0， 从 而 清除 f FIN 
标志 ， 阻 止 后 续 代 码 (图 29-10) 继 续 处 理 FIN。 

猜测 对 端 发 送 缓 存 大 小 
1106-1111 计算 len， 实际 上 是 在 猜测 对 端 发 送 缓存 的 大 小 。 考 虑 下 面 的 例子 。 插 口 接收 
缓存 大 小 等 于 8192(Net/3 的 默认 值 )， 因 此 ，TCP 在 SYN 中 通告 窗口 大 小 为 8192。 之 后 收 到 第 
一 个 报 文 段 ， 携 带 字 节 1~1024。 图 29-23 给 出 了 在 TCP_RERSS 增 加 zcv_nxt 以 反应 收 到 的 数 
据 后 接收 空间 的 状态 。 
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So rcv.sb. hiwat 28192 





uh de de dele ux mr xY S V tel NE Rice da Rad pile mE mur E dui md pa a He de ind - 
| 
1 Lus ERRARE REED 下 克 , 
rcv nxt rcv adv 
= 1025 = 8193 


图 29-23 大 小 为 8192 的 接收 窗口 收 到 字 市 1~1024 后 的 状态 


此 时 ， 经 计算 ，1len 等 于 1024。 对 端 癌 接收 窗口 发 送 更 多 数据 后 ，1Len 值 将 增加 ， 但 绝 不 
会 超过 对 端 发 送 缓存 的 大 小 。 前 面 介绍 过 ， 图 29-15 中 对 变量 max_sndwnd 的 计算 ， 是 在 猜测 
对 端 接收 缓存 的 大 小 。 
事实 上 上， 变量 len 从 未 被 使 用 。 它 是 从 Net/1 遗 留 下 来 的 ，1len 计 算 后 被 存储 到 
TCP 控 制 块 的 max zcvd 变 量 中 : 


if (len > tp-»max rcvd) 
tp-»max rcvd = len; 


但 即使 在 NeUV1 中 ， 变 量 max rcvd 也 未 被 使 用 。 


1112-1115 如果 len 等 于 0， 且 FIN 标 志 未 置 位 ， 或 者 连接 上 已 收 到 了 FIN， 则 丢弃 保存 接 
收报 文 段 的 mbuf 链 ， 并 清除 FIN。 


29.10 ”FIN 处 理 
tcp input 的 下 一 步 ， 在 图 29-24 中 给 出 ， 处 理 FIN 标 志 。 
TT Ta tcp. input.c 
1JIlTY * If FIN is received ACK the FIN and let the user hm 
1118 * that the connection is closing. 
11219 v7 
Ll20 if (tiflags & TH FIN) í( 
ii2l if (TCPS HAVERCVDFIN(tp-»t, state) == 0) ( 
1122 socantrcvmore(so); 
1123 tp-»t. flags |= TF ACKNOW; 
1124 tp-»rcv nxt--*; 
1125 ) 
1126 switch (tp-»t. state) { 
1127 j* 
1128 * In SYN RECEIVED and ESTABLISHED states 
1129 * enter the CLOSE WAIT state. 
L0 * jy 
BASA case TCPS SYN RECEIVED: 
LSA case TCPS, ESTABLISHED: 
1133 tp-»t. state = TCPS,CLOSE WAIT; 
1134 break; : 
tcp input.c 


图 29-24 tcp inputi44&k: FIN 处 理 ， 前 半 部 分 


1. 处 理 收 到 的 第 一 个 FIN 
1116-1125 如 果 接 收报 文 段 FIN 置 位 ， 并 且 是 连接 上 收 到 的 第 一 个 FIN， 则 调用 
socantrcvmore， 把 插口 设 为 只 读 ， 置 位 TF _ ACKNOW， 从 而 立即 发 送 ACK( 无 延 述 )。 
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rov nxtJil, 


TCP/IP 详 解 4X2: 实现 


越过 FIN 占 用 的 序号 。 


1126 FIN 处 理 的 其 余部 分 是 一 个 大 的 switch 语 句 ， 根 据 连 接 的 状态 进行 转换 。 注 意 ， 连 接 
处 于 CLOSED、LISTEN 和 SYN_SENT 状 态 时 ， 不 处 理 FIN， 因 为 处 于 这 3 个 状态 时 ， 还 未 收 到 
对 端 发 送 的 SYN， 无 法 同步 接收 序号 ， 也 就 无 法 验证 FIN 序 号 的 有 效 性 。 此 外 ， 连 接 处 于 
CLOSING、CLOSE_WAIT 和 LAST_ACK 状 态 时 ， 也 不 处 理 FIN， 因 为 在 这 3 个 状态 下 收 到 的 
FIN 必 然 是 一 个 重复 报 文 段 。 

2. SYN_RCVD 和 ESTABLISHED 状 态 


1127-1134 
CLOSE WAIT, 


尽管 在 SYN_RCVD 状 态 下 收 到 FIN 是 合法 的 ， 但 却 极为 罕见 。 图 24-15 的 状态 图 


未 列 出 这 一 状态 变迁 。 它 意味 着 处 于 LISTEN 状 态 的 插口 收 到 一 个 同时 带 有 SYN 和 


如 果 连 接 处 于 SYN_RCVD 或 ESTABLISHED 状 态 ， 收 到 FIN 后 ， 新 的 状态 为 


FIN 的 报 文 段 。 或 者 ， 正 在 监听 的 插口 收 到 了 SYN， 连 接 转移 到 SYN_RCVD 状 态 ， 
但 在 收 到 ACK 之 前 ， 先 收 到 了 FIN( 从 分 析 可 知 ，FIN 未 携带 有 效 的 ACK， 否则 ， 图 
29-2 中 的 代码 会 使 连接 转移 到 ESTABLISHED 状 态 )。 


图 29-25 给 出 了 FIN 处 理 的 下 一 部 分 。 


1135 
1136 
1137 
1138 
1139 
1140 
1141 


1142 
1143 
1144 
1145 
1146 
1147 
1148 
1149 
1150 
1151 
1152 


11353 
1154 
1155 
1156 
1157 
1158 
11593 
1160 


rm tcp input.c 
* If still in FIN WAIT 1 state FIN has not been acked so 
* enter the CLOSING state. 
ny 
case TCPS FIN WAIT 1: 
tp-»t state = TCPS CLOSING; 
break; 
/ * 
* In FIN WAIT 2 state enter the TIME WAIT state, 
* starting the time-wait timer, turning off the other 
* standard timers. 
*/ 
case TCPS. FIN WAIT 2: 
tp-»t.state = TCPS TIME WAIT; 
tcp canceltimers(tp); 
tp-»t.timer[TCPT. 2MSL] = 2 * TCPTV MSL; 
soisdisconnected(so); 
break; 
/ * 
* In TIME WAIT state restart the 2 MSL time wait timer. 
wf 
case TCPS TIME WAIT: 
tp-»t timer[TCPT 2MSL] = 2 * TCPTV MSL; 
break; 


tcp input.c 


图 29-25 tcp inputrAZE: FIN 处 理 ， 后 半 部 分 


3.FIN_WAIT_1 状 态 
1135-1141 因为 报 文 段 的 ACK 处 理 已 结束 ， 如 有 果 处 理 FIN 时 ， 连 接 处 于 FIN_WAIT_1 状 态 ， 
意味 着 连接 两 端 同时 关闭 连接 一 一 两 端 发 送 的 两 个 FIN 在 网 络 中 交错 。 连 接 进入 CLOSING 状 态 。 
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4. FIN_WAIT_2 状 态 
1142-1148  ” 收 到 FIN 将 使 连接 进入 TIME_WAIT 状 态 。 当 在 FIN_WAIT_1 状 态 收 到 携带 ACK 
和 FIN 的 报 文 段 时 (典型 情况 )， 尽 管 图 24-15 显 示 连 接 直 接 从 FIN_WAIT_1 转 移 到 TIME_WAIT 
状态 ， 但 在 图 29-11 中 处 理 ACK 时 ， 连 接 实际 已 进入 FIN_WAIT_2 状 态 。 此 处 的 FIN 处 理 再 将 
连接 转 到 TIME_WAIT 状 态 。 因 为 ACK 在 FIN 之 前 处 理 ， 所 以 连接 总 会 经 过 FIN_WAIT_2 状 态 ， 
尽管 是 暂时 性 的 。 

5. 启动 TIME_WAIT 定 时 器 
1149-1152 关闭 所 有 等 待 的 TCP 定 时 右 ， 并 局 动 TIME_WAIT 定 时 右 ， 时 限 寺 于 MSL( 如 采 
接收 报 文 段 中 包含 ACK 和 FIN， 图 29-11 中 的 代码 会 启动 FIN_WAIT_2 定 时 器)。 揪 口 断 开 连 接 。 

6. TIME_WAIT 状 态 
1153-1159 如 果 在 TIME_WAIT 状 态 时 收 到 FIN ， 说 明 这 是 一 个 重复 报 文 段 。 与 图 29-14 中 
的 处 理 类 似 ， 局 动 TIME_WAIT 定 时 右 ， 时 限 等 于 两 倍 的 MSL。 


29.11 最 后 的 处 理 


图 29-26 给 出 了 tcp_input 畏 数 中 首部 预测 失败 时 ， 较 慢 的 执行 路 径 中 最 后 一 部 分 的 代 
码 ， 以 及 标注 dropafterack。 


- tcp_input.c 
1161 if (so-»so options & SO. DEBUG) 
1162 tcp trace(TA INPUT, ostate, tp, &tcp saveti, 0); 
1163 £* 
1164 * Return any desired output. 
1165 *7 
1166 if (needoutput || (tp-»t flags & TF ACKNOW)) 
1167 (void) tcp output (tp) ; 
1168 return; 
1169 dropafterack: 
1179 p* 
1171 * Generate an ACK dropping incoming segment if it occupies 
1172 * sequence space, where the ACK reflects our state. 
1173 «o ^ 
1174 if (tiflags & TH RST) 
1175 goto drop; 
1176 m freem(m); 
1177 tp-»t flags |= TF ACKNOW; 
1178 (void) tcp output (tp); 
1179 return; : 
tcp input.c 


图 29-26 tcp input: 最 后 的 处 理 


1. SO_DEBUG 揪 口 选 项 
1161-1162 如 果 选 用 了 SO_DEBUG 插 口 选 项 ， 则 调用 tcp_trace 同 内 核 的 环形 缓存 中 添 
加 记录 。 回 想 一 下 ， 图 28-7 中 的 代码 同时 保存 了 原 有 连接 状态 ，IP 和 TCP 的 首部 ， 因 为 函数 有 
可 能 改变 这 些 值 。 

2. 调用 tcp output 
1163-1168 如 果 needoutput 标 志 置 位 (图 29-6 和 图 29-15)， 或 者 需要 立即 发 送 ACK， 则 调 
用 tep output, 
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3. dropafterack 
1169-1179 只 有 当 RST 标 志 未 置 位 时 ， 才 会 生成 ACK( 带 有 RST 的 报 文 段 不 会 被 确认 )， 释 
放 保 存 接收 报 文 段 的 mbuf 链 ， 调 用 tcp_output 立即 发 送 ACK。 

图 29-27 结 束 tcp inputiRA, 


1180 
IISI 
1182 
1183 
1184 
1185 
1186 
1187 
1188 
1189 
1190 
1191 
1132 
1193 
1194 
1195 
1196 
1197 
1198 
1199 
1200 


1201 
1202 
1203 
1204 
1205 
1206 
L207 
1208 
1209 
1210 
1211 
1212 } 


tcp input.c 
dropwithreset: cp. mp 


/* 
* Generate an RST, dropping incoming segment. 
* Make ACK acceptable to originator of segment. 
* Don't bother to respond if destination was broadcast/multicast. 
ui i 
if ((tiflags & TH RST) || m-»m flags & (M BCAST | M MCAST) || 
IN MULTICAST(ti-»ti dst.s addr)) 
goto crop; 
if (tiflags & TH, ACK) 
tcp respond(tp, ti, m, (tcp seq) 0, ti-»ti ack, TH.RST); 
else ( 
if (tiflags & TH.SYN) 
ti-»ti len-«-; 
tcp respond(tp, ti, m, ti-»ti seq + ti-»ti len, (tcp seq) O0, 
TH RST | TH ACK); 
) 
/* destroy temporarily created socket */ 
if (dropsocket) 
(void) soabort(so); 
return; 


drop: 
/* 
* Drop space held by incoming segment and return. 
*/ 
if (tp && (tp-»t inpcb-»inp socket-»so options & SO DEBUG)) 
tcp trace(TA DROP, ostate, tp, &tcp saveti, 0); 
m freem(m); 
/* destroy temporarily created socket */ 
if (dropsocket) 
(void) soabort(so); 
recurn; 


tcp input.c 
图 29-27 tcp inputtA ZR: 最 后 的 处 理 


4. dropwithreset 
1180-1188 除了 接收 报 文 段 也 有 RST ,或 者 接收 报 文 段 是 多 播 和 广播 报 文 段 的 情况 之 外 ,应 发 送 
RST。 绝 不 允许 因为 响应 RST 而 发 送 新 的 RST, 这 将 引起 RST 风 暴 (两 个 端点 间 连 续 不 断 地 交换 RST)。 


此 处 的 代码 存在 与 图 28-16 同 样 的 错误 : 它 不 检查 接收 报 文 段 的 目的 地 址 是 否 为 


广播 地 址 。 
类 似 地 ，IN_MULTICAST 的 目的 地 址 参数 应 转换 为 主机 字 节 序 。 
5. RST 报 文 段 的 序号 和 确认 序号 


1189-1196 RST 报 文 段 的 序号 字段 值 、 确 认 字 段 值 和 ACK 标 志 取 决 于 接收 报 文 段 中 是 否 带 


有 ACK。 


图 29-28 总 结 了 生成 RST 报 文 段 中 的 这 些 字段 。 
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生成 的 RST 报 文 段 


tir ACK 接收 到 的 确认 字段 O TH RST 
不 带 ACK 0 接收 到 的 序号 字段 TH RST|TH ACK 


图 29-28 生成 RST 报 文 段 各 字段 的 值 

正常 情况 下 ， 除 了 起 始 的 SYN( 图 24-16)， 所 有 报 文 段 都 带 有 ACK。tcp_respond 的 弟 
四 个 参数 是 确认 序号 ， 第 五 个 参数 是 序号 。 

6. 拒绝 连接 
1192-1193 如 条 SYN 置 位 ， 则 ti_ len 必 须 加 1， 从 而 生成 RST 的 确认 字段 比 收 到 的 SYN 报 
文 段 的 起 始 序号 大 1。 如 有 果 到 达 的 SYN 请 求 与 不 存在 的 服务 器 建立 连接 ， 会 执行 这 一 段 代 码 。 
此 时 ， 由 于 图 28-6 中 的 代码 找 不 到 请 求 的 Internet PCB， 控 制 跳 转 到 dropwithreset。 但 为 
了 使 发 送 的 RST 能 被 对 端 接受 ， 报 文 段 必须 确认 SYN( 图 28-18)。 卷 1 的 18.14 市 举例 说 明了 这 
种 类 型 的 RST。 

最 后 请 注意 ，t cp_respond 利 用 保存 接收 报 文 段 的 第 一 个 mbuf 构 造 RST， 并 且 释 放 链 上 
的 其 他 mbuf。 当 第 一 个 mbuf 最 终 到 达 设 备 驱 动 程序 后 ， 它 也 会 被 丢弃 。 

7. 释放 临时 创建 的 插口 
1197-1199 如 果 在 图 28-7 中 为 监听 的 服务 器 创建 了 临时 的 插口 ， 但 图 28-16 中 的 代码 发 现 接 
收报 文 段 有 错误 ， 它 会 置 位 drop socket。 如 果 出 现 了 这 种 情况 ,插口 在 此 处 被 释放 。 

8. 丢弃 (不 带 ACK 或 RST) 
1201-1206 如果 接 收报 文 段 被 丢弃 ， 且 不 生成 ACK 或 RST， 则 调用 tcp_trace。 如 果 
SO_DEBUG 置 位 且 生 成 了 ACK， 则 tcp_output 将 向 内 核 的 环形 缓存 中 添加 一 条 跟踪 记录 。 
如 有 果 SO_DEBUG 置 位 且 生 成 了 RST， 系 统 不 会 为 RST 添 加 新 的 跟踪 记录 。 
1207-1211 释放 保存 接收 报 文 段 的 mbuf 链 。 如 果 dropsocket 非 零 ， 则 释放 临时 创建 的 
插口 。 


29.12 XMR 


为 了 加 速 TCP 处 理 而 进行 的 优化 与 UDP 类 似 (23.12 市 )。 应 利用 复制 数据 计算 检验 和 ， 并 
避免 在 处 理 中 多 次 志 历 数据 。[Dalton et al. 1993] 讨 论 了 这 些 修订 。 

连接 数 增加 时 ， 对 TCP PCB 的 线性 搜索 也 是 一 个 处 理 瓶 贷 。[McKenney and Dove 1992] 讨 
论 了 这 个 问题 ， 利 用 哈 希 表 赫 代 了 线性 搜索 。 

[Partridge 1993] 介 绍 了 Van Jacobson 开 发 的 一 个 用 于 研究 目的 的 协议 实现 ， 极 大 地 减少 了 
TCP 的 输入 处 理 。 接 收 数 据 分 组 自 先 由 IP 进 行 处 理 (RISC 系 统 中 约 有 25 条 指令 )， 之 后 由 分 用 
顷 (demultiplexer) 导 找 PCB( 约 10 条 指令 )， 最 后 由 TCP 处 理 ( 约 30 条 指令 )。 这 30 条 指令 完成 了 首 
部 预测 ， 并 计算 伪 首 部 检验 和 。 如 果 数 据 报 文 段 通过 了 首部 预测 ， 且 应 用 进程 正 等 待 接 收 数 
据 ， 则 复制 数据 到 应 用 进程 缓存 ， 计 算 TCP 检 验 和 并 完成 验证 (一 次 遍历 中 完成 数据 复制 和 检 
验 和 计算 )。 如 果 TCP 首 部 预测 失败 ， 则 执行 TCP 输 入 处 理 中 较 慢 的 路 径 。 


29.13 首部 压缩 
下 面 介绍 TCP 首 部 压缩 。 尽管 首部 压缩 不 是 TCP 输 入 处 理 的 一 部 分 ， 但 需要 彻底 了 解 TCP 
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的 工作 机 制 后 ,才能 很 好 地 理解 首部 压缩 。RFC 1144[Jacobson 1994a] 中 详细 定义 了 首部 压缩 ， 
因为 Van Jacobson 首 先 提出 了 这 一 算法 ， 通常 也 称 为 VJ 首部 压缩 。 本 节 的 目的 不 是 详细 讨论 
首部 压缩 的 产 代 码 (RFC 1144 给 出 了 实现 代码 ， 其 中 有 很 好 的 注释 ， 程 序 量 与 tcp_output 差 
不 多 )， 而 是 概括 性 地 介绍 一 下 算法 的 思想 。 请 注意 区 分 首部 预测 (28.4 节 ) 和 首部 压缩 。 


29.13.1 引言 


多 数 的 SLIP 和 PPP 实 现 支 持 首 部 压缩 。 尽 管 首 部 压缩 ， 在 理论 上 ， 适 用 于 任何 数据 链 路 ， 
但 主要 还 是 面 癌 慢 速 串 行 链 路 ,首部 压缩 只 处 理 TCP 报 文 段 一 一 与 其 他 的 IP 协 议 无 关 ( 如 ICMP、 
IGMP、UDP 等 等 )。 它 能 够 把 IP/TCP 组 合 首部 从 正当 的 40 字 节 压 缩 到 只 有 3 字 节 ， 从 而 降低 了 
交互 性 应 用 ， 如 远程 登录 或 Telnet 中 TCP 报 文 段 的 大 小 ， 从 典型 的 41 字 节 减 少 到 只 剩 4 字 节 
一 一 大 大 提高 了 慢 速 串 行 链 路 的 效率 。 

串 行 链 路 的 两 端 ， 每 端 都 维护 着 两 个 连接 状态 表 ， 一 个 用 于 数据 报 的 发 送 ， 另 一 个 用 于 
数据 报 的 接收 。 每 张 表 最 多 保存 236 条 记录 ， 但 典型 的 只 有 16 条 ， 即 同一 时 间 内 最 多 人 允许 16 条 
不 同 的 TCP 连 接 执行 首部 压缩 算法 。 每 条 记录 中 保存 一 个 8 bit 的 连接 ID( 限 制 记录 数 最 多 只 能 
为 256)、 菜 些 标志 和 最 近 接 收 / 发 送 的 数据 报 的 未 被 压缩 的 首部 。96 bit 的 插口 对 可 唯一 确定 一 
条 连接 一 一 源 端 IP 地 址 和 TCP 端 口 、 目 的 IP 地 址 和 TCP 端 口 这 些 信息 都 保存 在 未 压缩 的 首 
部 中 。 图 29-29 举 例 说 明了 这 些 表 的 结构 。 

因为 TCP 连 接 是 全 双 工 的 ， 在 两 个 方向 的 数据 流 上 都 可 执行 首部 压缩 算法 。 连 接 两 端 必 
须 同 时 实现 压缩 和 解压 缩 。 同 一 条 连接 在 两 端的 表 中 都 会 出 现 ， 如 图 29-29 所 示 。 在 这 个 例子 
上 部 的 两 张 表 中 ， 连 接 ID 等 于 1 的 表 项 的 源 端 耻 地 址 都 等 于 128.1.2.3 ， 源 端 TCP 端 口号 都 等 于 
1500， 目 的 了 下地 址 等 于 192.3.4.5， 目 的 TCP 端 口号 都 等 于 25。 在 底部 的 两 张 表 中 ， 连 接 ID 等 
于 2 的 记录 保存 了 同一 条 连接 反方 向 数据 流 的 信息 。 

发 送 连 接 状 态 表 接收 连接 状态 表 
标号 ”标志 最 近 的 IPZTCP 首 部 标号 ”标志 最 近 的 IPZTCP 首 部 








接收 连接 状态 表 发 送 连 接 状态 表 
标号 ”标志 最 近 的 IPZTCP 首 部 标号 ”标志 最 近 的 IPZTCP 首 部 


e | (192.3.4.5, 25, 128.1.2.3, 1500] 


| [s2345 235128123150 
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图 29-29 链 路 (如 SLIP 链 路 ) 两 端的 一 组 连接 状态 表 
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£29€* TCP& 4 A(4) 797 


我 们 在 图 29-29 中 利用 数组 表示 这 些 表 ， 但 在 源 代码 中 ， 表 项 定义 为 一 个 结构 ， 连 接 状态 
表 定 义 为 这 些 结构 组 成 的 环形 链表 ， 最 近 一 次 用 过 的 结构 位 于 表 藉 。 

因为 连接 两 端 都 保存 了 最 近 用 过 的 未 压缩 的 数据 报 首 部 ， 所 以 只 需 在 链 路 上 传送 当前 
数据 报 与 前 一 数据 报 不 同 的 字段 (及 一 个 特殊 的 前 导 字 节 ， 指 明 后 续 的 是 哪 一 个 字段 )。 
因为 某 些 首部 字段 在 相 邻 的 数据 报 之 间 不 会 变化 ， 而 其 他 的 首部 字段 变化 也 很 小 ， 这 种 










差分 处 理 是 压缩 算法 的 核心 。 首 部 压缩 只 适用 于 IP 和 TCP 首 部 TCP 报 文 段 的 数据 部 
分 不 变 。 
图 29-30 给 出 了 发 送 方 利 用 首部 压缩 算法 ， 在 串 行 链 路 上 发 送 卫 数据 报时 采取 的 步骤 。 
待 发 送 的 IP 
数据 报 
nies 非 TCP 报 文 或 不 可 IP 型 
x 压缩 的 TCP 报 文 
其 他 | TCP 
连接 表 中 寻找 匹 | 找到 在 连接 表 相 应 记 | COMPRESSED TCP 型 
的 IPZTCP 首 部 
Hk 
未 找到 * 


"a 在 连接 表 记 录 中 
pu 保存 未 压缩 的 
IP/TCP 首 部 


图 29-30 发 送 方 采 用 首部 压缩 时 的 步骤 


接收 方 必 须 能 够 识别 下 面 3 种 类 型 的 数据 报 : 

1) IP 型 数据 报 ， 前 导 字 节 的 高 位 4 比特 等 于 4。 这 也 是 IP 首 部 中 正常 的 了 了 版 本 号 (图 8-8)， 
说 明 链 路 上 发 送 的 是 正常 的 、 未 压缩 的 数据 报 。 

2) COMPRESSED_TCP 型 数据 报 ， 前 导 字 节 的 最 高 位 置 为 1!1， 类 似 于 IP 版 本 号 介 于 8 和 15 之 
间 ( 剩 余 的 7bit 由 压缩 算法 使 用 )， 说 明 链 路 上 发 送 的 是 压缩 过 的 首部 和 未 压缩 的 数据 ， 接 下 来 
我 们 还 会 谈 到 这 种 类 型 的 数据 报 。 

3) UNCOMPRESSED_TCP 型 数据 报 ， 前 导 字 节 的 高 位 4 比特 等 于 7， 说 明 链 路 上 发 送 的 是 
正常 的 、 未 压缩 的 数据 报 ， 但 卫 的 协议 字段 (等 于 6， 对 TCP) 被 替换 为 连接 ID ， 接 收 方 可 据 此 
从 连接 状态 表 中 找到 正确 的 记录 。 

接收 方 查看 数据 报 的 第 一 个 字 节 ， 即 前 导 字 节 ， 确 定 其 类 型 ， 实 现代 码 参 见 图 5-13。 图 3- 
16 中 ， 发 送 方 调用 sl_compress_tcp 确 认 TCP 报 文 段 是 可 压缩 的 ， 函 数 返 回 值 与 数据 报 首 
字 市 逻辑 或 后 ， 结 果 依 然 保 存在 首 字 市 中 。 

图 29-31 列 出 了 链 路 上 传送 的 前 导 字 节 ， 其 中 4 位 “-” 表 示 正 常 的 IP 首 部 长 度 字 段 。7 位 
“C、I、P、S、A、W 和 E” 指 明 后 续 的 是 哪些 可 选 字 段 ， 后 面 会 简单 地 介绍 这 些 字 母 的 含义 。 
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Ü i O0 Q0 - =- - - IP 
ràe 
的 首 字 市 DI d 3 - - - -  UNCOMPRESSED TCP 
i & I P S A W U COMPRESSED TCP 


图 29-31 链 路 上 传送 的 前 导 字 市 
图 29-32 给 出 了 使 用 压缩 算法 之 后 ， 不 同类 型 的 完整 的 卫 数 据 报 。 
IP 数 据 报 的 头 4bit 


mong 


- | 20~60 字 节 的 IP 首 部 | 


协议 =TCP 20~60 字 节 的 TCP 首 部 0~65 495 字 节 的 TCP 数 据 
| 20~60 字 市 的 IP 首 部 | 


协议 = 连接 ID 20~60 字 节 的 TCP 首 部 0-65 495 字 市 的 TCP 数 据 
COMPRESSED_TCP: lw Co 0-65 495 字 节 的 TCP 数 据 


3~16 字 节 
| 压缩 的 TCP | 
首部 


图 29-32 采用 首部 压缩 后 的 不 同类 型 的 IP 数 据 报 


图 中 给 出 了 两 个 IP 型 数据 报 : 一 个 携带 了 非 TCP 报 文 段 (如 UDP、ICMP 或 IGMP 协 议 报 文 
段 )， 男 一 个 携带 了 TCP 报 文 段 。 这 是 为 了 说 明 作为 IP 型 数据 报 发 送 的 TCP 报 文 段 与 作为 
UNCOMPRESSED_TCP 型 数据 报 发 送 的 TCP 报 文 段 间 的 差异 : 前 导 字 节 的 高 位 4 比特 互 不 相同 ， 
类 似 于 IP 首 部 的 协议 字段 。 

如 采 卫 数据 报 的 协议 字段 不 等 于 TCP， 或 者 协议 是 TCP， 但 下 列 条 件 之 一 为 真 ， 都 不 会 采 
用 首部 压缩 算法 。 

* 数据 报 是 一 个 IP 分 片 : 分 片 偏 移 量 非 零 或 者 分 片 标 志 置 位 ; 

。*。SYN、FIN 或 RST 中 的 任何 一 个 置 位 ， 

。ACK 标 志 未 置 位 。 

上 述 3 个 条 件 中 只 要 有 一 个 为 真 ， 都 将 作为 了 型 数据 报 发 送 。 

此 外 ， 即 使 数据 报 携带 了 可 压缩 的 TCP 报 文 段 ， 压 缩 算法 也 可 能 失败 ， 生 成 
UNCOMPRESSED_TCP 型 的 数据 报 。 可 能 因为 当前 数据 报 与 连接 上 发 送 的 上 一 个 数据 报 比 较 
时 ， 有 些 特殊 字段 发 生 了 变化 ， 而 正常 情况 下 ， 对 于 给 定 的 连接 ， 它 们 应 该 不 变 ， 从 而 导致 
压缩 算法 无 法 反映 存在 的 变化 。 例 如 ，TOS 字 段 ， 分 片 标志 位 。 此 外 ， 如 果菜 些 字 段 数 值 的 
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差异 超过 65535， 压 缩 算 法 也 会 失败 。 
29.13.2 首部 字段 的 压缩 


下 面 介 绍 如 何 压缩 图 29-33 中 给 出 的 IP 和 TCP 的 首部 字段 ， 阴 影 字 段 指 对 于 给 定 连接 ， 正 
常情 况 下 不 会 发 生变 化 的 字段 。 





16 位 总 长 ( 字 市 ) 


32 位 确认 序号 


16 位 窗口 大 小 


16 位 紧急 指针 





图 29-33 组 合 的 IP 和 TCP 首 部 : 阴影 字段 通常 不 变化 


如 采 连 接 上 发 送 的 前 一 个 报 文 段 与 当前 报 文 段 之 间 ， 有 阴影 字段 发 生变 化 ， 则 压缩 算法 
失败 ， 报 文 段 被 直接 发 送 。 图 中 未 列 出 了 P 和 TCP 选 项 ， 但 如 果 它 们 存在 ， 且 这 些 选 项 字段 发 
生 了 变化 ， 则 报 文 段 也 不 压缩 ， 而 被 直接 发 送 (习题 29.7)。 

如 霖 阴影 字段 均 未 变化 ， 即 使 算法 只 传输 非 阴 影 字 段 ， 也 会 市 省 50% 的 传输 容量 。VJ 首 
部 压缩 甚至 做 得 更 好 ， 图 29-34 给 出 了 压缩 后 的 IPTCP 首 部 格式 。 

最 小 的 压缩 后 的 IP/TCP 首 部 只 有 3 个 字 市 : 第 一 个 字 节 (标志 比特 )， 加 上 16 位 的 TCP 检 验 
和 。 为 了 防止 可 能 的 链 路 错误 ， 一 般 不 改动 TCP 检 验 和 (SLIP 不 提供 链 路 层 的 检验 和 ， 尽 管 
PPP — 47). 
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0,1 1 


| connid (C) 


如 果 C= l :连接 ID 





TCP 检 验 和 不 变 16 位 TCP 检 验 和 ， 必 选 

0,1,3! urgoff (U) 如 果 U= 1:TCP 紧 急 数据 偏 移 量 
puer EIU T eer rr eror tie d 

E x. 3 Awin (W) | 如 果 W= 1:TCP 窗 口 大 小 差 值 

0, 3 Aack (A) | 如 果 4=1:TCP 确 认 序 号 差 值 
OE 

013! Aseq (S) | 如果 S=1;TCP 序 号 差 什 
IE 

0,1,3. Aipid (I) | AURI 1;IP 标 识 符 差 值 

数据 不 变 


图 29-34 压缩 后 的 IP/TCP 首 部 格式 


其 他 的 6 个 字段 connid、urgof、Awin、Aack、Aseq 和 Aipid 都 是 可 选 的 。 图 29-34 的 最 左 侧 
列 出 了 各 字段 压缩 后 所 需 的 字 市 数 。 读 者 可 能 认为 压缩 后 的 首部 最 大 应 占用 19 字 市 ， 但 实际 
上 压缩 后 的 首部 中 4 位 的 SAWU 绝 不 可 能 同时 置 位 ， 因 此 ， 压 缩 首部 最 大 为 16 字 市 ， 后 面 我 们 
还 会 详细 讨论 这 个 问题 。 

第 一 个 字 市 的 最 高 位 比特 必须 设 为 1， 说 明 这 是 COMPRESSED_TCP 型 的 数据 报 。 其 余 7 
bit 中 的 6 个 规定 了 后 续 首部 中 存在 哪些 可 选 字段 ， 图 29-35 小 结 了 这 7 位 的 用 法 。 


结构 变量 标志 等 于 0 说 明 标志 等 于 1 说 明 
C 


连接 ID 连接 ID 不 变 connid= 连 接 ID 
IP 标 识 条 ip_id 已 加 1 Aipid=IP 标 识 符 差 值 
TCP 推 标志 PSH 标 志清 除 PSH 标 志 置 位 


TCP 序 号 th_seq 不 变 Aseq=TCP 序 号 差 值 

TCP 确 认 序 号 th_ack 不 变 Aack=TCP 确 认 序号 差 值 
TCP£i H th win Awin=TCP 窗 口 字段 差 值 
TCP 紧 急 数据 偏 移 量 URG 标 志 未 置 位 urgoff= 紧 急 数据 偏 移 量 





图 29-35 压缩 首部 中 的 7 个 标志 比特 


C 如 果 C 比 特等 于 0， 则 当前 报 文 段 与 前 一 报 文 段 (无 论 是 压缩 的 或 非 压缩 的 ) 具 有 相同 的 
连接 ID。 如 果 和 守 于 1 ， 则 connid 将 等 于 连接 ID， 其 值 位 于 0~255 之 间 。 

I 如 果 I 比 特等 于 0， 当 前 报 文 段 的 IP 标 识 符 较 前 一 报 文 段 加 1( 典 型 情况 )。 如 果 等 于 1， 
Aipid 等 于 ip_id 的 当前 值 减 去 它 的 前 一 个 值 。 
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P 这 个 比特 复制 自 TCP 报 文 段 中 的 PSH 标 志 位 。 因 为 PSH 标 志 不 同 于 其 他 的 正常 方式 ， 
必须 在 每 个 报 文 段 中 明确 地 定义 这 一 标志 。 

S 如 果 S 比 特等 于 0，TCP 序 号 不 变 。 如 果 等 于 1，Aseg 等 于 th_seq 的 当前 值 减 去 它 的 前 
EG 

A 如 果 4 比 特等 于 0，TCP 确 认 序 号 不 变 ( 典 型 情况 )。 如 果 等 于 1，AacK 等 于 th_ack 的 当 
前 值 减 去 它 的 前 一 个 值 。 

W 如 果 W 比 特等 于 0，TCP 窗 口 大 小 不 变 。 如 果 等 于 1，Awin 等 于 th_win 的 当前 值 减 去 
它 的 前 一 个 值 。 

U 如 果 U 比 特等 于 0， 报 文 段 的 URG 标 志 未 置 位 ， 紧 急 数 据 偏 移 量 不 变 (典型 情况 )。 如 果 
SETI, 说 明 URG 标 志 置 位 ，urgoff 等 于 th_urg 的 当前 值 。 如 果 URG 标 志 未 置 位 时 ， 
紧急 数据 仿 移 量 发 生 改 变 ， 报 文 段 将 被 直接 发 送 ( 这 种 现象 通常 发 生 在 紧急 数据 传送 
完毕 后 的 第 一 个 报 文 段 )。 

通过 字段 的 当前 值 减 去 它 的 前 一 个 值 ， 得 到 需 传输 的 差 值 。 正 常情 况 下 ， 得 到 的 是 一 个 
小 正 数 (Awin 是 个 例外 )。 

请 注意 ， 图 29-34 中 有 5 个 字段 的 长 度 可 变 ， 可 占用 0、1 或 3 字 节 。 

0 字 市 : 对 应 标志 未 置 位 ， 此 字段 不 存在 ; 

Ir: 发 送 值 在 1~255 之 间 ， 只 和 需 占 用 1 字 布 ， 

3 字 市 ; 如 果 发 送 值 等 于 0 或 者 在 256~65535 之 间 ， 则 需要 用 3 个 字 节 才能 表示 : 第 一 个 字 节 
全 0， 后 两 个 字 证 保存 实际 值 。 这 种 方法 一 般 用 于 3 个 16 bit 的 值 ，urgo 凡 Awin 和 Aipid。 但 如 
果 两 个 32 比 特 字 段 Aack 和 Asegq 的 差 值 小 于 0 或 者 大 于 65 535， 报 文 段 将 被 直接 发 送 。 

如 果 把 图 29-33 中 不 带 阴影 的 字段 与 图 29-34 中 可 能 的 传输 字段 进行 比较 ,会 发 现 有 些 字段 
永远 不 会 被 传输 。 

。IP 总 长 度 字段 不 会 被 传输 ， 因 为 绝 大 多 数 链 路 层 向 接收 方 提供 接收 数据 分 组 的 长 度 。 

。 因 为 IP 首 部 中 被 传输 的 唯一 字段 是 16 bit 的 IP 标 识 符 ，IP 检 验 和 被 忽略 。 因 为 它 只 在 一 

段 链 路 上 保护 IP 首 部 ， 每 次 转发 都 会 被 重新 计算 。 


29.13.3 特殊 情况 


算法 检查 输入 报 文 段 ， 如 果 出 现 两 种 特殊 情况 ， 则 用 前 导 字 节 的 低位 4 比特 一 一 94WV 的 
两 种 特殊 组 合 ， 分 别 加 以 表示 。 因 为 紧急 数据 很 少 出现 ， 如 果 报 文 段 中 URG 标 志 置 位 ， 并 且 
与 前 一 报 文 段 相 比 ， 序 号 与 窗口 字段 都 发 生 了 变化 (意味 着 低位 4 比特 应 为 1011 或 1111)， 此 种 
报 文 段 会 跳 过 压缩 算法 ， 被 直接 发 送 。 因 此 ， 如 果 低 位 4 比特 等 于 1011( 称 为 *S4) 或 1111( 称 为 
*5)， 就 说 明 出 现 了 下 面 两 种 特殊 情况 : 

*SA ”序号 与 确认 序号 都 增加 ， 差 值 等 于 前 一 报 文 段 的 数据 量 ， 窗 口 大 小 与 紧急 数据 偏 移 

量 不 变 ，URG 标 志 未 置 位 。 采 用 这 种 表示 法 可 以 避免 传送 Asyeqg 和 Aack。 

如 本 对 妆 回 送 终 闯 数 据 ， 那 么 两 个 传输 方向 上 的 数据 报 文 段 中 都 会 经 常 出 现 这 一 现 

家 。 卷 1 的 图 19-3 和 图 19-4， 举 例 说 明了 远程 登录 应 用 中 出 现 的 这 种 类 型 的 数据 。 
S ”序号 增加 ， 差 值 等 于 前 一 报 文 段 的 数据 量 ， 确 认 序 号 、 窗 口 大 小 与 紧急 数据 偏 移 量 

均 不 变 ，URG 标 志 未 置 位 。 采 用 这 种 表示 法 可 以 避免 传送 Ased。 

这 种 类 型 的 数据 通常 出 现在 单身 数据 传输 (如 FTP) 的 发 送 方 。 卷 1 的 图 20-1、 图 20-2 


802 TCP/IP;EÉ£ X2: 实现 


ftl] 20-3246 (| UH. xx RRAS TV BUD fei. DEP. ADIRO jm AS IA P CTS «2A 
在 数据 发 送 方 的 数据 报 文 段 中 也 会 出 现 这 种 现象 。 


29.13.4 实例 


下 面 的 两 个 例子 ， 在 图 1-17 中 的 bsdi 和 slip 两 个 系统 间 ， 利 用 SLIP 链 路 传输 数据 。 这 
条 SLIP 链 路 在 两 个 传输 方向 上 都 采用 了 首部 压缩 算法 。 在 主机 bsdi 上 运行 Lcpdump 程 序 ( 卷 1 
的 附录 A)， 保 存 所 有 数据 帧 的 备份 。 这 个 程序 还 支持 一 个 选项 ， 能 够 输出 压缩 后 的 首部 ， 列 
出 图 29-34 中 的 所 有 字段 。 

在 主机 间 已 建立 了 两 条 连接 : 一 条 远程 登录 连接 ， 另 一 条 是 从 bsdai 到 sl1ip 的 文件 传输 
(FTP)。 图 29-36 列 出 了 两 条 连接 上 不 同类 型 数据 帧 出 现 的 次 数 。 


| aer  — 0| ^ re — | 


输出 
UNCOMPRESSED TCP I—— 


COMPRESSED TCP 
特殊 情况 *5A4 

特殊 情况 *5 

一 般 情 况 














图 29-36 远程 登录 和 FTP 连 接 上 ， 不 同类 型 数据 帆 出 现 的 次 数 


远程 登录 连接 中 ， 在 两 个 传输 方向 上 ，*S4 都 出 现 了 75 次 ， 从 而 证 明了 在 对 端 回 显 终端 流 
量 时 ， 这 一 特殊 情况 在 两 个 传输 方向 上 都 会 经 常 出 现 。FTP 连 接 中 ， 在 数据 的 发 送 方 ，*5 出 
现 了 325 次 ， 也 证 明了 对 于 单 癌 数据 传输 ， 这 一 特殊 情况 会 经 第 出 现在 数据 的 发 送 方 。 

FTP 连 接 中 ， 卫 型 的 数据 帧 出 现 了 10 次 ， 对 应 于 4 个 带 有 SYN 的 报 文 段 ， 以 及 6 个 带 有 FIN 
的 报 文 段 。FTP 使 用 了 两 条 连接 : 一 条 用 于 传输 交互 式 命令 ， 男 一 条 用 于 文件 传输 。 

UNCOMPRESSED_TCP 型 数据 帧 一 般 对 应 于 连接 建立 后 的 第 一 个 报 文 段 ， 即 同步 连接 ID 
的 报 文 段 。 这 两 个 例子 中 还 有 少量 的 其 他 类 型 的 报 文 段 ， 主 要 用 于 服务 类 型 设 定 (NeV3 中 的 远 
程 登录 及 FTP 客 户 及 服务 器 都 是 在 连接 建立 后 才 设 定 TOS 字 段 )。 





图 29-37 压缩 首部 大 小 的 分 布 
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图 29-37 给 出 了 压缩 首部 大 小 的 分 布 情况 ， 后 4 栏 中 压缩 首部 的 平均 大 小 为 分 别 等 于 3.1、 
4.1、6.0 和 3.3 字 节 ， 与 原来 的 40 字 玉 相 比 ， 大 大 提高 了 系统 的 传输 效率 ， 尤 其 对 于 交互 式 连 
接 ， 效果 更 加 明显 。 

在 FTP 输 入 一 栏 中 ， 压 缩 首部 大 小 为 6 字 市 的 报 文 段 有 325 个 ， 其 中 绝 大 多 数 只 携带 了 值 等 
于 256 的 Aack 字 段 ， 因 为 256 大 于 255， 所 以 必须 用 3 个 字 节 表示 。SLIP MTU 等 于 296， 因 此 ， 
TCP 采 用 了 256 的 MSS。 在 FTP 输 出 一 栏 中 ， 压 缩 首部 大 小 为 3 字 节 的 报 文 段 有 250 个 ， 其 中 绝 
大 多 数 都 代表 *5 类 的 特殊 情况 (只 有 序号 发 生变 化 )， 差 值 等 于 256。 但 因为 *$ 的 序号 差 值 默认 
为 前 一 报 文 段 的 数据 量 ， 所 以 只 需 传输 前 导 字 节 和 TCP 检 验 和 。 在 FTP 输 出 一 栏 中 ，78 个 压缩 
首部 大 小 为 4 字 节 的 报 文 段 也 属于 同一 情况 ， 只 不 过 IP 标 识 符 也 发 生 了 变化 (习题 29.8)。 


29.13.5 配置 


对 给 定 的 SLIP 或 PPP 链 路 ， 首 部 压缩 必须 被 选 定 后 才能 起 作用 。 配 置 SLIP 链 路 接口 时 ， 
一 般 可 设 定 两 个 标志 : 首部 压缩 标志 和 自动 首部 压缩 标志 。 配 置 命 令 是 ifconfig，, 分 别 带 
选项 1ink0 和 1ink2。 正 稼 情况 下 ， 由 客户 端 (拨号 主机 ) 决 定 是 否 采 用 首部 压缩 算法 ， 服 务 
器 (客户 通过 拨号 接 和 的 主机 或 终端 服务 器 ) 只 选择 是 否 置 位 自动 首部 压缩 标志 。 如 果 客 户 选 用 
了 首部 压缩 算法 ， 它 的 TCP 首 先 发 送 一 个 UNCOMPRESSED_TCP 型 的 数据 报 ， 规 定 连接 ID。 
如 果 服 务 器 收 到 这 个 数据 报 ， 它 也 开始 采用 首部 压缩 算法 (服务 器 处 于 自动 方式 ); 如 果 未 收 到 
这 个 数据 报 ， 服 务 器 绝 不 会 在 这 条 链 路 上 采用 首部 压缩 。 

PPP 人 允许 在 链 路 建立 时 ， 连 接 双 方 共同 协商 传输 选项 ， 其 中 的 一 个 选项 即 是 否 支 持 首 部 压 
缩 算法 。 


29.14 小结 


本 章 结束 了 我 们 对 TCP 输 入 处 理 的 详细 介绍 。 首 先 介绍 了 如 果 连 接 在 SYN_RCVD 状 态 时 
收 到 了 ACK， 该 如 何 处 理 ， 即 如 何 完 成 被 动 打开 、 同 时 打开 或 自 连 接 。 

快速 重 传 算法 指 TCP 在 连续 收 到 的 重复 ACK 数 超过 规定 的 门限 值 后 ， 能 够 检测 到 丢失 的 
报 文 段 并 进行 重 发 ， 即 使 重 传 定时 右 还 未 超时 。Net3 结 合 了 快速 重 传 算法 与 快速 恢复 算法 ， 
执行 拥塞 避免 算法 而 非 慢 起 动 ， 尽 量 保证 发 送 方 到 接收 方 的 数据 流 不 中 断 。 

ACK 处 理 负 责 从 插口 的 发 送 缓存 中 丢弃 已 确认 的 数据 ， 并 且 在 收 到 的 ACK 会 改变 连接 当 
前 状态 时 ， 对 一 些 TCP 状 态 做 特殊 处 理 。 

处 理 接 收报 文 段 的 URG 标 志 ， 如 末 置 位 ， 则 通过 TCP 紧 急 方式 的 处 理 ， 提 取 带 外 数据 。 
这 一 操作 是 非常 复杂 的 ， 因 为 应 用 进程 可 以 利用 正常 的 数据 流 缓存 ， 或 者 特殊 的 带 外 数据 组 
存 接收 带 外 数据 ， 而 且 TCP 收 到 URG 时 ， 紧 急 指 针 所 指 疝 的 数据 可 能 还 未 到 达 。 

TCP 输 入 处 理 结束 时 ， 会 调用 TCP_REASS， 提取 报 文 段 中 的 数据 放 入 插口 的 接收 缓存 
或 重组 队列 ， 处 理 FIN 标 志 ， 并 且 在 接收 报 文 段 需要 啊 应 时 ， 调 用 tcp_output 输 入 啊 应 报 
文 段 。 

TCP 首 部 压缩 征用 于 SLIP 和 PPP 链 路 的 一 种 技术 ， 能 够 把 卫 和 TCP 首 部 长 度 从 40 字 有 减少 
到 约 为 3~6 字 有 (典型 情况 )。 这 和 是 因为 对 于 给 定 连接 ， 相 邻 两 个 报 文 段 之 间 ， 首 部 的 多 数字 段 
` 会 改变 ， 即 使 有 些 字段 的 值 发 生 了 变化 ， 其 差 值 也 很 小 ， 从 而 可 以 通过 前 导 字 节 中 的 标志 比 
特 ， 指 明 哪些 字段 发 生 了 变化 ， 在 后 续 部 分 只 传输 这 些 字段 的 当前 值 与 前 一 报 文 段 间 的 差 值 。 
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2 P 5k AS ELER, ANUSIESROCEOACK,. WD— ^ MDHixtEE. CURAS eR. H 
先 完成 连接 建立 过 程 ? 

Net/3 系 统 中 ， 监 听 服 务 帮 收 到 了 一 个 SYN， 它 同时 携带 了 50 字 市 的 数据 。 会 发 生 
TAT 

继续 前 一 个 习题 ， 假 定 客户 没有 重 传 50 字 市 的 数据 ， 而 是 在 对 服务 器 SYN/ACK 报 
文 段 的 确认 中 和 置 位 FIN 标 志 ， 会 发 生 什 么 ? 

Net3 客 户 癌 服务 器 发 送 SYN， 服 务 器 啊 应 SYN/ACK， 其 中 还 携带 了 50 字 的 数据 
和 FIN 标 志 。 列 出 客户 端 TCP 的 处 理 步骤 。 

卷 1 的 图 18-19 和 REFC 793 的 图 14， 都 给 出 了 出 现 同时 关闭 时 ， 连 接 双 方 交 换 的 4 个 报 
文 段 。 但 如 末 连 接 两 端 都 是 Net/3 系 统 ， 出 现 同时 关闭 时 ， 或 者 一 个 Net/3 系 统 的 自 
连接 关闭 时 ， 彼 此 将 交换 6 个 报 文 段 ， 而 不 是 4 人 个， 多余 出 两 个 报 文 段 是 因为 连接 两 
闯 各 自 收 到 对 端的 FIN 后 ， 将 加 对 端 重 发 FIN。 问 题 出 在 什么 地 方 ， 如 何 解决 ? 
RFC 793 第 72 页 建议 ， 如 果 发 送 缓存 中 的 数据 已 被 对 端 确认 ,， 应 给 用 户 一 个 确认 ， 
指明 缓存 中 已 发 送 且 被 确认 的 数据 (例如 ， 发 送 缓存 返回 时 应 带 有 OK pM)", 
Net/3 是 否 提 供 了 这 种 机 制 ? 

RFC 1323 中 定义 的 选项 对 TCP 首 部 压缩 有 何 影 响 ? 

Net3 对 IP 标 识 符 字 段 的 赋值 方式 ， 对 TCP 首 部 压缩 有 何 影响 ? 


第 30 章 TCP 的 用 户 需 求 


30.1 引言 


本 章 介 绍 TCP 的 用 户 请 求 处 理 函 数 tcp_usrreg， 它 被 协议 的 pr_usrreq 函 数 调 用 ， 处 
理 各 种 与 TCP 插 口 有 关 的 系统 调用 。 此 外 ， 还 将 介绍 tcp_ctloutput， 应 用 进程 调用 
setsockopt 设 定 TCP 插口 选项 上 时， 会 用 到 它 。 


30.2 tcp usrreq ži 


TCP 的 用 户 请 求 函数 用 于 处 理 多 种 操作 。 图 30-1 给 出 了 tcp_usrreq 函 数 的 基本 框架， 
其 中 switch 的 语句 体 部 分 将 在 后 续 部 分 逐一 展开 。 图 15-17 中 列 出 了 函数 的 参数 ， 其 具体 合 
义 取决 于 所 处 理 的 用 户 请 求 。 

Pr tcp usrreq.c 


46 tcp usrreq(so, req, m, nam, control) 
47 struct socket *so; 


48 int req; 

49 struct mbuf *m, *nam, *control; 

50 ( 

51 struct inpcb *inp; 

52 struct tcpcb *tp; 

53 int S; 

54 int errór = 0; 

55 int ostate; 

56 if (req -- PRU CONTROL) 

57 return (in control(so, (int) m, (caddr t) nam, 

58 (struct ifnet *) contro1)); 

59 if (control && control-»m len) ( 

60 m freem(control); 

61 if (m) 

62 m freem(m); 

63 return (EINVAL); 

64 ) 

65 S = splnet(); 

66 inp = sotoinpcb(so); 

67 /* 

68 * when a TCP is attached to a socket, then there will be 
69 * a (struct inpcb) pointed at by the socket, and this 
70 * structure will point at a subsidary (struct tcpcb). 
71 ui i 

72 if (inp == 0 && req !- PRU ATTACH) ( 

73 splx(s); 

74 return (EINVALD); I" KAX TY 

75 ) 

76 if (inp) ( 

77 tp - intotcpcb(inp); 


到 30-1 tcp usrred 国 数 体 
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78 /* WHAT IF TP IS D? */ 

79 ostate = tp-»t, state; 

80 ) else 

81 ostate - 0; 

82 switch (req) ( 

=o s.4* switch.casei 

276 default: 
277 panic("tcp usrreq"); 
278 } 
279 if (tp && (so->so_options & SO DEBUG)) 
280 tcp trace(TA USER, ostate, tp, (struct tcpiphdr *) 0, req); 
281 splx(s); 

282 return (error); 
283 ) 


tcp usrreq.c 
图 30-1 (53) 


1. in_control1 处 理 ioct1 请 求 
45-58 PRU CONTROL 请 求 来 自 于 ioct1 系 统 调用 ， 国 数 in_contzrol 负 责 处 理 这 一 请 求 。 

2. 控制 信息 无 效 
59-64 如 果 试 图 调用 sendmsg， 为 TCP 插口 配置 控制 信息 ， 代 码 将 释放 mbuf， 并 返回 
EINVAL 差 错 代码 ， 声 明 这 一 操作 无 效 。 
65-66 国 数 接着 执行 splnet。 这 种 做 法 极为 保守 ， 因 为 并 非 在 所 有 情况 下 都 需要 锁定 ， 只 
是 为 了 防止 在 case 语 句 中 单个 地 调用 splInet 。 我 们 在 图 23-15 中 曾 提 到 ， 调 用 splnet 设 定 
处 理 器 的 优先 级 ， 唯 一 的 作用 是 阻止 软 中 断 执行 IP 输 入 处 理 ( 它 会 接着 调用 tcp_input), 但 
却 无 法 阻止 接口 层 接 收 输 入 数据 分 组 并 放 入 到 IP 的 输入 队列 中 。 

通过 指向 插口 结构 的 指针 ， 可 得 到 指向 Internet PCB 的 指针 。 只 有 在 应 用 进程 调用 
socket 系 统 调用 ， 发 出 PRU_ATTACH 请 求 时 ， 该 指针 才 人 允许 为 空 。 
67-81 如 果 inp 非 空 ， 当 前 连接 状态 将 保存 在 cstate 中 ， 以 备 图 数 结束 时 可 能 会 调用 
tcp trace, 

下 面 我 们 开始 讨论 单独 的 case 语 句 。 应 用 进程 调用 socket 系 统 调用 ， s Ur oS as 
收 到 连接 请 求 ( 图 28-7)， 调 用 sonewconn 国 数 时 ， 都 会 发 出 PRU_RATTRACH 请 求 ， 图 30-2 给 出 
了 这 一 请 求 的 处 理 代 码 。 


» tcp usrreq.c 
84 * TCP attaches to socket via PRU ATTACH, reserving space, 
85 * and an internet control block. 

86 a d 

87 case PRU_ATTACH: 

88 if (inp) 4 

89 error - EISCONN; 

90 break; 

91 } 

92 error = tcp attach(so); 

93 if (error) 


图 30-2 tcp usrreqrK 7E: PRU ATTACHÁIPRU _DETRACH 请 求 
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94 break; 

95 ir ((so-»so.options & SO LINGER) && so-»so linger == 0) 
96 so-»so linger = TCP. LINGERTIME; 

37 tp = sototcpcb(so); 

98 break; 

99 "dii 

100 * PRU DETACH detaches the TCP protocol from the socket. 
101 * If the protocol state is non-embryonic, then can't 
102 * do this directly: have to initiate a PRU DISCONNECT, 
103 * which may finish later; embryonic TCB's can just 

104 * be discarded here. 
105 "gr 
106 case PRU DETACH: 

107 if (tp-»t state > TCPS LISTEN) 
108 tp - tcp disconnect (tp) ; 
109 else 

110 tp - tcp close(tp); 

111 break; 





tcp usrreq.c 
图 30-2 (£x) 


3. PRU ATTACH 请 求 
83-94 ”如果 插口 结构 已 经 指 疝 某 个 PCB， 则 返回 EISCONN 差 错 代 码 。 调 用 tcp_attach 完 
成 处 理 : 分 配 并 初始 化 Internet PCB 和 和 TCP 控制 块 。 
95-96 如果 选 用 了 So_LINGER 揪 口 选 项 ， 且 拖延 时 间 为 0， 则 将 其 设 为 120 
(TCP LINGERTIME), 
为 什么 在 PRU_RTTRCH 请 求 发 出 之 前 ， 就 可 以 设 定 插口 选项 ? 尽管 不 可 能 在 调 
用 socket 之 前 就 设 定 插口 选项 ， 但 sonewconn 也 会 发 送 PRU ATTACH 请 求 。 它 在 
把 监听 插口 的 so options 复 制 到 新 建 插口 之 后 ， 才 会 发 送 PRU _ATTACH 请 求 。 此 
处 的 代码 防止 新 建 连接 从 监听 插口 中 继承 拖延 时 间 为 0 的 SO_LINGER 选 项 。 
请 注意 ， 此 处 的 代码 有 错误 。 常 量 TCP LINGERTIME 在 tcp_ timer.h 中 初始 
化 为 120， 该 行 的 注释 为 “最 多 等 待 2 分 钟 "。 但 SO_LINGER 值 也 是 内 核 tSlLeep 函 数 
(由 soclose 调 用 ) 的 最 后 一 个 参数 ， 从 而 成 为 内 核 的 timeout 了 有 函数 的 最 后 一 个 参数 ， 
单位 为 滴答 ， 而 非 秒 。 如 果 系 统 的 滴答 频率 (Hz) 等 于 100， 则 拖延 时 间 将 变 为 1.2 秒 ， 
而 非 2 分 钟 。 


97 ”现在 ，tp 已 指向 插口 的 TCP 控 制 块 。 这 样 ， 如 果 选 定 了 SO_DEBUG 插 口 选 项 ， 函 数 结束 
时 就 可 以 输出 所 需 信息 。 

4. PRU_DETACH 请 求 
99-111 close 系 统 调用 在 PRU_ DISCONNECT 请 求 失败 后 ， 将 发 送 PRU_DETACH 请 求 。 如 
果 连 接 尚 未 建立 (连接 状态 小 于 ESTABLISHED)， 则 无 须 向 对 端 发 送 任何 信息 。 但 如 果 连 接 已 
建立 ， 则 调用 tcp_disconnect 初 始 化 TCP 的 连接 关闭 过 程 (发 送 所 有 缓存 中 的 数据 ， 之 后 
发 送 FIN)。 

代码 if 语 向 的 测试 条 件 要 求 状态 大 于 LISTEN， 这 是 不 正确 的 。 因 为 如 果 和 连接 状态 
等 于 SYN_SENT 或 者 SYN_RCVD， 两 者 都 大 于 LISTEN， 此 时 tcp disconnect 会 直 
接 调 用 tcp _ close。 实际 上 ， 这 个 case 语 外 可 以 简化 为 直接 调用 cp disconnect, 
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图 30-3 给 出 了 binda 和 1isten 系 统 调 用 的 处 理 代码 。 


112 
113 
114 
LLS 
1:6 
117 
118 
119 


120 
L24 
122 
123 
124 
125 
126 
127 
128 


/* 


* Give the socket an address. 


ii; 
Case PRU BIND: 


error = in pcbbind(inp, nam); 


lf (error) 
break; 

break; 

/* 


* Prepare to accept connections. 


Fofi 
case PRU_LISTEN: 


(struct mbuf *) 0); 


if (inp-»inp lport ==. D} 

error - in pcbbind(inp, 
lf (error == 0) 

Up-»t tate = TCPS LISTEN; 
break; 


图 30-3 tcp usrreqrAZEi: PRU BINDAUPRU LISTEN 请 求 


112-119 PRU BIND 请 求 的 处 理 只 是 简单 地 调用 in_ pcbbind, 


120-128 


tcp. usrreq.c 


Icp usrreq.c 


对 于 PRU_LISTEN 请 求 ， 如 果 插 口 还 未 绑 定 在 某 个 本 地 端口 上 ， 则 调用 


in_pcbbina 目 动 为 其 分 配 一 个 。 这 种 情况 十 分 少见 ， 因 为 多 数 服 务 左 会 明确 地 绑 定 一 个 知 
名 端口 ， 尽 管 RPC( 远 端 过 程 调用 ) 服 务 器 一 般 是 绑 定 在 一 个 临时 端口 上 ， 并 通过 Port Mapper 


[^] REMA HA C05 18929.4 17128 T Port Mapper)。 连 接 状 态 变 迁 到 LISTEN ， 


调用 的 主要 目的 : 设 定 插口 的 状态 ， 以 便 接受 到 达 的 连接 请 求 ( 被 动 打 开 )。 
图 30-4 给 出 了 connect 系 统 调用 的 处 理 代 码 : 客户 发 起 的 主动 打开 。 





129 
130 
Tal 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 


145 
146 
147 
148 


Initiate connection to peer. 


Enter SYN SENT state, and mark socket as connecting. 


Start keepalive timer, 


and seed output sequence space. 


* Send initial segment on connection. 


xdi 
case PRU, CONNECT: 
if (inp-»inp.lport == 0) ( 
error - in pcbbind(inp, 
if (error) 
break; 
) 
error = in pcbcontüect(inp, 
if (error) 
break; 


tp-»t template = 


if (tp-»t template == 0) 


( 


in pcbdisconnect (inp); 


error - ENOBUFS; 


(struct mbur *) 0); 


nam); 


tcp template(tp); 


图 30-4 tcp usrreqtğt: PRU CONNECT 请 求 


完成 了 listen 


tcp. usrreq.c 


* 
* 
* Create a template for use in transmissions on this connection. 
* 
* 
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149 break; 
150 ) l 
151 /* Compute window scaling to request.  */ 
152 while (tp-»request r scale < TCP MAX WINSHIFT && 
153 (TCP MAXWIN «« tp-»request r scale) « so-»so rcv.sb hiwat) 
154 tp-»request r scale--; 
155 soisconnecting(íso); 
156 tcpstat.tcps connattempt --; 
TT tp-»t state = TCPS SYN SENT; 
158 tp-»t timer[TCPT KEEP] = TCPTV KEEP. INIT; 
159 tp-»iss = tcp.iss; 
160 tcp iss «- TCP. ISSINCR / 2; 
161 tcp sendseqinit (tp); 
162 error - tcp output (tp); 
163 break; 
tcp. usrreq.c 
图 30-4 (£x) 
5. 分 配 临 时 端口 


129-141 如 果 插 口 还 未 绑 定 在 某 个 本 地 端口 上 ,调用 ip_pcbbind 自 动 为 其 分 配 一 个 。 对 
于 客户 端 ， 这 是 很 常见 的 ， 因 为 客户 一 般 不 关心 本 地 端口 值 。 

6. 连接 PCB 
142-144 iWHin pcbconnect, 获取 到 达 目 的 地 的 路 由 ， 确 定 外 出 接口 ， 验 证 插口 对 不 
重复 。 

7. 初始 化 IP 和 TCP 首 部 
145-150 调用 tcp_template 分 配 mbuf, 保存 IP 和 TCP 的 首部 ， 并 初始 化 两 个 首部 ， 填 入 
尽 可 能 多 的 信息 。 会 造成 函数 失败 的 唯一 原因 是 内 核 耗 尽 了 mbuf。 

8. 计算 窗口 缩放 因子 
151-154 计算 用 于 接收 缓存 的 窗口 缩放 因子 : 左 移 65535(TCP_MAXWIN)， 直 到 它 大 于 或 等 
于 接收 缓存 的 大 小 (so_rcv .sb_hiwat)。 得 到 的 位 移 次 数 (0~14 之 间 )， 就 是 需要 在 SYN 中 发 
送 的 缩放 因子 值 (图 28-7 处 理 被 动 打开 时 ， 有 相同 的 代码 )。 应 用 进程 必须 在 调用 connect 之 
前 ， 设 定 SO_RCVBUF 插口 选项 ，TCP 才 会 在 SYN 中 添加 窗口 大 小 选项 ， 否 则 ， 将 使 用 接收 
缓存 大 小 的 默认 值 (图 24-3 中 的 tcp_recvspace)。 

9. 设 定 插口 和 连接 的 状态 
155-158 调用 soisconnecting， 置 位 插口 状态 变量 中 恰当 的 比特 ， 设 定 TCP 连 接 状 态 为 
SYN_SENT， 从 而 在 后 续 的 tcp_output 调 用 中 发 送 SYN( 参 见 图 24-16 的 tcp_outlags 值 )。 连 接 
建立 定时 器 启动 ， 时 限 初 始 化 为 75 秒 。tcp_output 还 会 启动 SYN 的 重 传 定 时 器 ， 如 图 25-16 所 示 。 

10. 初始 化 序号 
159-161 今 初始 序号 等 于 全 局 变量 tcp iss， 之 后 令 tcp_iss 增 加 64 000 (TCP_ 
ISSINCR 除 以 2)。 在 监听 服务 器 收 到 SYN 并 初始 化 ISS 时 (图 28-17)， 对 tcp_iss 的 相同 的 操 
作 。 接 着 调用 tcp_sendseqinit 初 始 化 发 送 序号 。 

11. 发 送 初 始 SYN 
162 调用 cp_output 发 送 初始 SYN， 以 建立 连接 。 如 果 tcp_output 返 回 错误 (例如 ，mbuf 
耗 尽 或 没有 到 达 目 的 地 的 路 由 )， 该 差错 代码 将 成 为 Lcp_usrreq 的 返回 值 ， 报 告 给 应 用 进程 。 
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图 30-5 给 出 了 PRU_CONNECT2、PRU_DISCONNECT 和 PRU_ACCEPT 请 求 的 处 理 代码 。 
164-169 PRU CONNECT2 请 求 ,来 自 socketpair 系 统 调 用 ， 对 TCP 协 议 无 效 。 
170-183 close 系 统 调用 会 发 送 PRU DISCONNECT 请 求 。 如 果 连 接 已 建立 ， 应 调用 
tcp disconnect, 发送 FIN， WTE STCP RHR. 


T " Icp usrreq.c 
165 * Create a TCP connection between two sockets. 

166 */ 

167 case PRU_CONNECT2: 

168 error = EOPNOTSUPP; 

169 break; 

170 [* 

171 * Initiate disconnect from peer. 

172 * If connection never passed embryonic stage, just drop; 

173 * else if don't need to let data drain, then can just drop anyway, 
174 * else have to begin TCP shutdown process: mark socket disconnecting, 
175 * drain unread data, state switch to reflect user close, and 

176 * send segment (e.g. FIN) to peer. Socket will be really disconnectec 
177 * when peer sends FIN and acks ours. 

178 * 

179 * SHOULD IMPLEMENT LATER PRU CONNECT VIA REALLOC TCPCB. 

180 * 

181 case PRU DISCONNECT: 

182 tp = tcp disconnect (tp); 

183 break; 

184 /* 

185 * Accept a connection. Essentially all the work is 

186 * done at higher levels; just return the address 

187 * of the peer, storing through addr. 

188 "4 

189 case PRU, ACCEPT: 

190 in| setpeeraddr(inp, nam); 

191 break; 


tcp. usrreq.c 


图 30-5 tcp usrreqrE Z6: PRU CONNECT2, PRU DISCONNECT 和 PRU ACCEPTifizk 


请 注意 以 SHOULD IMPLEMENT( 应 该 实现 ) 起 头 的 注释 ， 这 是 因为 无 法 接着 使 用 
出 现 错 误 的 插口 。 例 如 ， 客 户 调用 connect ， 并 得 到 一 个 错误 ， 它 就 无 法 在 同一 个 
播 口上 再 次 调用 connect ， 而 必须 首先 关闭 插口 ， 调 用 socket 创 建新 的 插口 ， 在 
新 的 插口 上 才能 再 次 调用 Connect。 


184-191 与 accept 系 统 调用 有 关 的 工作 全 部 由 揪 口 层 和 协议 层 完 成 。PRU_RACCEPT 请 求 
只 简单 地 向 应 用 进程 返回 对 端的 IP 地 址 和 端口 号 。 

图 30-6 给 出 了 PRU SHUTDOWN, PRU _RCVD 和 PRU _ SEND 请求 的 处 理 代 码 。 

12. PRU SHUTDOWN 请 求 
192-200 应 用 进程 调用 shutdown， 禁 目 更 多 的 输出 时 ，soshutdown 会 发 送 
PRU_SHUTDOWN 请 求 。 调 用 socantsendmore 置 位 揪 口 的 标志 ， 禁 止 继 续 发 送 报 文 段 。 接 
着 调用 tcp_usrclosed， 根 据 图 24-15 的 状态 变迁 图 ， 设 定 正确 的 连接 状态 。tcp_output 
发 送 FIN 之 前 ， 如 果 发 送 缓存 中 仍 有 数据 ， 会 首先 发 送 等 待 数据 。 


192 
193 
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199 
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214 
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ja tcp. usrreq.c 
* Mark the connection as being incapable of further output. 
x jJ 


case PRU SHUTDOWN: 
socantsendmore(so); 
tp = tcp usrclosed(tp); 


Af (tp) 
error - tcp output (tp); 
break; 
/* 
* After a receive, possibly send window update to peer. 
wd 


case PRU. RCVD: 
(void) tcp.output (tp); 
break; 


/* 
* Do a send by putting data in output queue and updating urgent 
* marker if URG set. Possibly send more data. 
&j 
case PRU SEND: 
sbappend(&so-»so snd, m); 
error = tcp. output(tpi); 


break; 
tcp usrreq.c 


图 30-6 tcp usrreqrKZÉ: PRU SHUTDOWN, PRU _ RCVD 和 PRU _ SEND 请 求 


13. PRU_RCVD 请 求 


201-206 


应 用 进程 从 插口 的 接收 缓存 中 读 取 数据 后 ，soreceive 会 发 送 这 个 请 求 。 此 时 接 


收 缓存 已 扩大 ， 也 许 会 有 足够 的 空间 ， 让 TCP 发 送 更 大 的 窗口 通告 。tcp_output 会 决定 是 
否 需 要 发 送 窗口 更 新 报 文 段 。 
14. PRU_SEND 请 求 


207-214 


图 23-14 中 给 出 的 5 个 写 函 数 ， 都 以 这 一 请 求 结 束 。 调 用 sbappend， 辣 插口 的 发 


送 缓存 中 添加 数据 ( 它 将 一 直 保 存在 缓存 中 ， 直 到 被 确认 )， 并 调用 tcp_output 发 送 新 报 文 
段 ( 如 采 条 件 允 许 )。 
图 30-7 给 出 了 PRU _ABORT 和 PRU _ SENSE 请 求 的 处 理 代 码 。 





T 2 Icp. usrreq.c 
216 * Abort the TCP. 
214 * / 
218 case PRU ABORT: 
219 tp = tcp drop(tp, ECONNABORTED); 
220 break; 
221 case PRU SENSE: 
222 ( (struct stat *) m)-»st blksize = so-»so snd.sb hiwat; 
223 (void) splx(s); 
224 return (0); 
tcp. usrreq.c 





图 30-7 tcp_uszrzred 国 数 : PRU ABORT 和 PRU SENSE 请 求 


15. PRU_ABORT 请 求 


215-220 


如 果 插 口 是 监 听 插 口 (如 服务 器 )， 并 且 存 在 等 待 建立 的 连接 ， 例 如 已 发 送 初 始 
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SYN 或 已 完成 三 次 担 手 过 程 ， 但 还 未 被 服务 器 accept 的 连接 ， 调 用 soclose 会 导致 发 送 
PRU_ABORT 请 求 。 如 果 连 接 已 同步 ，tcp_drop 将 发 送 RST。 

16. PRU SENSE 请 求 
221-224 fstat 系 统 调用 会 生成 PRU SENSE 请 求 。TCP 返 回 发 送 缓存 的 大 小 ， 保 存在 
stat 结 构 的 成 员 变 量 st blksize 中 。 

图 30-8 给 出 了 PRU_RCVOOB 的 处 理 代码 。 当 应 用 进程 置 位 MSG_00B 标 志 ， 试 图 读 取 带 外 
数据 时 ，soreceive 会 发 送 这 一 请 求 。 


225 case PRU_RCVOOB: Ee 
226 if ((so-»so oobmark == 0 && 
ZB (so->so_state & SS RCVATMARK) == 0) |I 
228 SO-»SO Options & SO OOBINLINE || 
229 tp-»t oobflags & TCPOOB HADDATA) ( 
230 error - EINVAL; 
234 break; 
232 ) 
233 if ((tp-»t oobflags & TCPOOB HAVEDATA) == 0) ( 
234 error - EWOULDBLOCK; 
235 break; 
236 ) 
234 m-»m len - 1; 
238 *mtod(m, caddr t) = tp-»t,. iobc; 
239 if (((int) nam & MSG, PEEK) == Q) 
240 tp-»t oobflags “= (TCPOOB HAVEDATA | TCPOOB. HADDATA) ; 
241 break; 
cp. usrreq.c 


图 30-8 tcp usrreq 团 数 : PRU RCVOOBifick 


17. 能 耕读 取 带 外 数据 
225-232 如 果 下 列 3 个 条 件 有 一 个 为 真 ， 应 用 进程 读 取 带 外 数据 的 努力 就 会 失败 。 

1) 如 果 插 口 的 带 外 数据 分 界 点 (so _oobmark) 等 于 0， 并 且 插 口 的 SS_RCVATMARK 标 志 
AXE: 

2) 如 果 SO OOBINLINEdjfi HAME; 

3) 如 果 连 接 的 TCPOOB_HRADDRATR 标 志 设 定 (例如 ， 连 接 的 带 外 数据 已 被 读 取 )。 

如 果 上 述 3 个 条 件 中 任何 一 个 为 真 ， 则 返回 差错 代码 EINVAL，。 

18. 是 否 有 带 外 数据 到 达 
233-236 如 果 上 述 3 个 条 件 全 假 ， 但 TCPOOB HRAVEDRTR 标 志 置 位 ， 说 明 尽管 TCP 已 收 到 了 
对 端 发 送 的 紧急 方式 通告 ， 但 尚未 收 到 序号 等 于 紧急 指针 减 1 的 字 节 (图 29-17)， 此 时 返回 差错 
代码 EWOULDBLOCK， 有 可 能 因为 发 送 方 发 送 紧 急 数据 通告 时 ， 紧 急 数据 偏 移 量 指向 了 尚未 
发 送 的 字 节 。 卷 1 的 图 26-7 举 例 说 明了 这 种 情况 ， 发 送 方 的 数据 传输 被 对 端的 零 窗 口 通告 停止 
时 ， 和 党 出 现 这 种 现象 。 

19. 返回 带 外 数据 字 闻 
237-238 tcp pulloutofband 回 应 用 进程 返回 存储 在 t_ Latus Hd 个 字 节 的 带 外 数据 。 

20. 更 新 标志 
239-241 如 果 应 用 进程 已 读 取 了 和 带 外 数据 (而 不 是 仅 大 致 了 解 带 外 数据 的 情况 ，MSG_PEEK 标 
志 置 位 )，TCP 清 除 HAVE 标 志 ， 并 置 位 HAD 标 志 。case 语 句 执行 到 此 处 时 ， 通 过 前 面 的 代码 可 
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以 肯定 ，HAVE 标 志 已 置 位 ， 而 HAD 标 志 被 清除 。 置 位 HAD 标 志 的 目的 是 防止 应 用 进程 试图 再 次 
读 取 带 外 数据 。 一 旦 HAD 标 志 置 位 ， 在 收 到 新 的 紧急 指针 之 前 ， 它 不 会 被 清除 (图 29-17)。 
代码 使 用 了 让 人 费解 的 异 或 运算 ， 而 不 是 简单 的 
tp-»t oobflags = TCPOOB HADDATA; 
是 为 了 能 够 在 t oobflags 中 定义 更 多 的 比特 。 但 Net/3 中 ， 实 际 只 用 到 了 上 面 
提 及 的 两 个 标志 比特 。 
图 30-9 中 的 PRU_SENDOOB 请 求 ， 是 在 应 用 进程 写 入 数据 并 置 位 MSG_OoB 时 ， 由 sosend 


Icp usrreq.c 
242 case PRU SENDOOB: 
243 if (sbspace(&so-»so snd) < -512) { 
244 m freem(m); 
245 error - ENOBUFS; 
246 break; 
247 ) 
248 /* 
249 * According to RFC961 (Assigned Protocols), 
250 * the urgent pointer points to the last octet 
251 * of urgent data. We continue, however, 
252 * to consider it to indicate the first octet 
253 * of data past the urgent section. 
254 * Otherwise, snd up should be one lower. 
255 wf 
256 sbappend(&so->so_snd, m); 
257 tp-»-snd up = tp-»snd una + so-»so snd.sb cc; 
258 tp-»t. force = 1; 
259 error = tcp outbputitp): 
260 tp-»t. force = 0; 
261 break; 
tcp usrreq.c 


图 30-9 tcp_ustrred 国 数 : PRU SENDOOB 请 求 


21. 确认 发 送 缓存 中 有 足够 空间 并 添加 新 数据 
242-247 发 送 带 外 数据 时 ， 人 允许 应 用 进程 写 入 数据 后 ， 待 发 送 数 据 量 超过 发 送 缓存 大 小 ， 
超出 量 最 多 为 512 字 节 。 揪 口 层 的 限制 要 宽松 一 些 ， 写 入 带 外 数据 后 ， 最 多 可 超出 发 送 缓存 
1024 字 节 ( 图 16-24)。 调 用 sbappend 癌 发 送 缓存 末 闻 添加 数据 。 

22. 计算 紧急 指针 
248-257 紧急 指针 (snda_up) 指 向 写 入 的 最 后 一 个 字 节 之 后 的 字 节 。 图 26-30 举 例 说 明了 这 
一 点 ， 假 定 发 送 缓存 为 空 ， 应 用 进程 写 和 信 3 字 节 的 数据 ， 且 置 位 了 MSG_00B 标 志 。 这 是 考虑 
到 车 应 用 进程 置 位 MSG_00B 标 志 ， 且 写 入 的 数据 量 超过 1 字 市 ， 如 果 接 收 方 为 伯克利 系统 ， 
则 只 有 最 后 一 个 字 市 会 被 认为 是 带 外 数据 。 

23. 强制 TCP 输 出 
258-261 今 t force 等 于 1]， 并 调用 tcp_output。 即 使 收 到 了 对 端的 零 窗口 通告 ，TCP 
也 会 发 送 报 文 段 ，URG 标 志 置 位 ， 紧 急 指针 偏 移 量 非 零 。 卷 1 的 图 26-7 说 明了 如 何 向 一 个 关闭 
的 接收 窗口 发 送 紧 急 报 文 段 。 

图 30-10 给 出 了 最 后 3 个 请 求 的 处 理 。 
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tcp. usrreq.c 
262 case PRU SOCKADDR: 
263 in setsockaddr(inp, nam); 
264 break; 
265 case PRU PEERADDR: 
266 in setpeeraddr(inp, nam); 
267 break; 
268 px 
269 * TCP slow timer went off; going through this 
270 * routine for tracing's sake. 
2741 ui 
272 case PRU_SLOWTIMO: 
273 tp = tcp timers(tp, (int) nam); 
274 req |= (int) nam << 8; /* for debug's sake */ 
275 break; 
tcp usrreq.c 


图 30-10 tcp usrreqtKZ$: PRU SOCKADDR, PRU PEERADDR 和 PRU_SLOWTIMO 请 求 


262-267 getsockname 和 getpeername 系 统 调 用 分 别 发 送 PRU_ SOCKADDRZI 
PRU_PEERRADDR 请 求 。 调 用 in_setsockaddqr 和 in_setpeeraddr 畏 数 ， 从 PCB 中 获取 需 
要 信息 ， 存 储 在 addr 参 数 中 。 

268-275 执行 tcp slowtimo 国 数 会 发 送 PRU_SLOWTIMO 畏 数 。 如 同 注 释 所 指出 的 ， 
tcp_slowtimo 不 直接 调用 cp_timers 的 唯一 原因 是 为 了 能 够 在 图 数 结尾 处 调用 
tcp_trace， 跟 踪 记 录 定 时 绒 超时 事件 (图 30-1)。 为 了 在 记录 中 指明 是 4 个 TCP 定 时 右 中 的 哪 
一 个 超时 ，tcp_slowtimo 通 过 nam 参 数 传递 了 t_timer 数 组 (图 25-1) 的 指针 ， 并 左 移 8 位 后 
与 请 求 值 (req) 逻 辑 或 。trpt 程 序 了 解 这 种 做 法 ， 并 据 此 完成 相应 的 处 理 。 


30.3 tcp attach 函数 


tcp_attach 国 数 ， 在 处 理 PRU_RATTRACH 请 求 (例如 ， 插 口 系统 调用 ， 或 者 监听 插口 上 收 
到 了 新 的 连接 请 求 ) 时 ， 由 tcp_usrreq 调 用 。 图 30-11 给 出 了 它 的 代码 。 

1. 为 发 送 缓存 和 接收 缓存 分 配 资源 
361-372 如 果 还 未 给 插口 的 发 送 和 接收 缓存 分 配 空 间 ，sbreserve 将 两 者 都 设 为 8192， 即 
全 局 变量 tcp sendspace 和 tcp recvspace 的 默认 值 (图 24-3)。 


这 些 默 认 值 是 否 够 用 ， 取 决 于 连接 两 个 传输 方向 上 的 MSS, 后 者 又 取决 于 MTU， 
例如 ，[Comer and lin 1994] 论 证 了 ， 如 果 发 送 缓存 小 于 3 倍 的 MSS， 则 会 出 现 异 常 ， 
严重 降低 系统 性 能 。 某 些 实现 定义 的 默认 值 很 大 ， 如 61 444 字 节 ， 已 考虑 到 这 些 默认 
值 对 性 能 的 影响 ， 尤 其 对 较 大 的 MTU( 如 FDDI 和 ATM) 更 是 如 此 。 


2. 分 配 Internet PCB 和 TCP 控 制 块 
373-377 in pcballoc 分 配 Internet PCB， 而 tcp_newtcpcb 分 配 TCP 控 制 块 ， 并 将 其 与 
对 应 的 PCB 相 连 。 
378-384 如 果 tcp newtcpcb 调 用 malloc 时 失败 ， 则 执行 注释 为 “XXX” 的 代码 。 前 面 
已 介绍 过 ，PRU_ATTACH 请 求 是 插口 系统 调用 或 监听 插口 收 到 新 的 连接 请 求 (sonewconn) 的 
结果 。 对 于 后 一 种 情况 ， 插 口 标志 SS_NOFDREF 置 位 。 如 果 此 标志 置 位 ，in_pcballoc 调 
用 sofree 时 会 释放 插口 结构 。 但 我 们 在 tcp_input 中 看 到 ， 除 非 该 函数 已 完成 接收 报 文 段 
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的 处 理 ( 图 29-27 中 的 4ropsocket 标 志 )， 否则 ， 不 应 释放 插口 结构 。 因 此 ， 调 用 
in pcbdetach 了 时， 应 将 SS_NOFDREF 标 志 的 当前 值 保存 在 变量 nofd 中 ， 并 在 
tcPp_attach 返 回 前 重 设 该 标志 。 

385-386 TCP 连 接 状 态 初始 化 为 CLOSED 。 


eye cp. usrreq.c 
362 tcp attach(so) 

363 struct socket *so; 

364 ( 

365 Struct tépcb ED) 

366 struct inpcb *inp; 

367 int error; 

368 if (so-»so snd.sb hiwat == 0 || so-»so rcv.sb hiwat == 0) ( 
369 error - soreserve(so, tcp sendspace, tcp recvspace); 
370 if (error) 

371 return (error); 

372 ) 

373 error = in pcballoc(so, &tcb); 

374 if (error) 

345 return (error); 

376 inp = sotoinpcb(so); 

377 tp - tcp newtcpcb(inp); 

378 1f [tp ss D) ( 

379 int nofd - so-»so state & SS NOFDREF; /* XXX */ 
380 SO-»SO State &- "SS NOFDREF; /* don't free the socket yet */ 
381 in pcbdetach(inp); 

382 SO-»Sso state |= nofd; 

383 return (ENOBUFS); 

384 ) 

385 tp-»t.state = TCPS. CLOSED; 

386 return (0); 

387 3 


cp. usrreq.c 


图 30-11 tcp attach: 创建 新 的 TCP 插 口 


30.4 tcp _ disconnect 函 数 


图 30-12 给 出 的 tcp_ aisconnect 国 数 ， 准 备 断 开 TCP 连 接 。 

1. 连接 未 同步 
396-402 如果 连 接 还 未 进入 ESTABLISHED 状 态 ( 如 LISTEN、SYN_SENT 或 SYN_RCVD)， 
tcp_close 只 释放 PCB 和 TCP 控 制 块 。 无 须 向 对 端 发 送 任何 报 文 段 ， 因 为 连接 尚未 同步 。 

2. 硬性 断 开 
403-404 如 宁 连 接 已 同步 ， 且 So_LINGER 揪 口 选 项 置 位 ， 拖 延 时 间 (SO_LINGER) 设 为 零 ， 
则 调用 tcp_dqzrop 丢 弃 连 接 。 连 接 不 经 过 TIME_WNWRAIT， 直 接 更 新 为 CLOSED ， 向 对 端 发 送 
RST， 和 释放 PCB 和 和 TCP 控制 块 。 调 用 close 会 发 送 PRU _ DISCONNECT 请 求 ， 丢 弃 仍 在 发 送 或 
接收 缓存 中 的 任何 数据 。 

如 有 果 SO_LINGER 插 口 选项 置 位 ， 且 拖延 时 间 非 零 ， 则 调用 soclose 进 行 处 理 。 

3. 平 诊断 开 
405-406 如 朱 连 接 已 同步 ， 且 SO_LINGER 选 项 未 设 定 ， 或 者 选项 设 定 且 拖延 时 间 不 为 零 ， 
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则 执行 TCP 正 常 的 连接 终止 步骤 。soisdisconnecting 设 定 插口 状态 。 


396 struct tcpcb * FR 
397 tcp disconnect (tp) 
4398 struct tcpcb *tp; 
399 ( 
400 struct socket *so = tp-»t inpcb-»inp socket; 
401 if (tp-»t state < TCPS ESTABLISHED) 
402 tp - tcp close(tp); 
403 else if ((so-»so options & SO LINGER) && so-»so linger == 0) 
404 tp = tcp droóp(tp, 0); 
405 else ( 
406 soisdisconnecting(so); 
407 sbflush(&so-»so rcv); 
408 tp = tcp usrclosed(tp); 
409 iF (tp) 
410 (void) tcp output (tp) ; 
411 ) 
412 return (tp); 
413 ) 
Icp. usrreq.c 
图 30-12 tcp_disconnect 国 数 : 准备 断 开 TCP 连 接 
4. 丢弃 滞留 的 接收 数据 


407 调用 sbflush， 丢 弃 所 有 滞留 在 接收 缓存 中 的 数据 ， 因 为 应 用 进程 已 关闭 了 插口 。 发 
送 缓存 中 的 数据 仍 保留 ，tcp_output 将 试图 发 送 剩余 的 数据 。 我 们 说 “试图 ， 因 为 不 能 保 
证 数据 还 能 成 功 地 被 发 送 。 在 收 到 并 确认 这 些 数 据 之 前 ， 对 端 可 能 已 崩溃 ， 即 使 对 端的 TCP 
模块 能 够 接收 并 确认 这 些 数据 ， 在 应 用 程序 读 取 数 据 之 前 ， 系 统 也 可 能 月 福 。 因 为 本 地 进程 
已 关闭 了 插口 ， 即 使 TCP 放 弃 发 送 仍 滞留 在 发 送 缓存 中 的 数据 (因为 重 传 定时 器 最 终 超 时 )， 也 
无 法 向 应 用 进程 通告 错误 。 
5. 改变 连接 状态 

408-410 tcp_usrclosed 基 于 连接 的 当前 状态 ,促使 其 进入 下 一 状态 。 通 常情 况 下 ， 连 
接 将 转移 到 FIN_WAIT_1 状 态 , 因为 连接 关闭 时 一 般 都 处 于 ESTABLIDHED 状 态 。 后面 会 看 到 ， 
tcp_usrclosed 通 常 返 回 当前 控制 块 的 指针 (tp)。 因 为 状态 必须 先 同步 才 会 执行 此 处 的 代 
码 ， 所 以 总 需要 调用 cp_output 发 送 报 文 段 。 如 果 连 接 从 ESTABLISHED 转 移 到 
FIN WAIT 2， 将 发 送 FIN。 


30.5 tcp usrclosedHHi Zi 


图 30-13 给 出 的 这 个 函数 ， 在 PRU _SHUTDOWN 处 理 中 ， 由 tcp_disconnect 调 用 。 

1. 未 收 到 SYN 时 的 简单 关闭 
429-434 如果 连 接 上 还 未 收 到 SYN， 则 无 须发 送 FIN。 新 的 状态 等 于 CLOSED， 
tcp _ close 将 释放 Internet PCB 和 和 TCP 控制 块 。 

2. 转移 到 FIN_WAIT_1 状 态 l 
435-438 如 果 连 接 当 前 状态 等 于 SYN_RCVD 和 ESTABLISHED ， 新 的 状态 将 等 于 
FIN_WAIT_1， 再 次 调用 tcp_output 时 ， 将 发 送 FIN( 图 24-16 中 的 tcp_outflags 值 )。 
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3. 转移 到 LAST_ACK 状 态 


439-441 


如 有 果 连 接 当前 状态 等 于 CLOSE_WAIT， 新 状态 等 于 LAST_ACK， 则 再 次 调用 


tcp_output 时 ， 将 发 送 FIN。 
443-444 如果 连 接 当 前 状态 等 于 FIN_WAIT_2 或 TIME_WAIT，soisdisconnected 将 正 
确 地 标注 插 口 的 状态 。 


424 struct tcpcb * 
425 tcp usrclosed(tp) 
426 struct teopob *tp; 


427 ( 


443 
444 
445 
446 ) 


tcp usrreq.c 


switch (tp-»t state) { 


case TCPS CLOSED: 

case TCPS LISTEN: 

case TCPS SYN SENT: 
tp-»t.state = TCPS, CLOSED; 
tp = tcp.close(ttp); 
break; 


case TCPS SYN RECEIVED: 

case TCPS ESTABLISHED: 
tp-»t state = TCPS FIN WAIT 1; 
break; 


case TCPS CLOSE WAIT: 
tp-»t state = TCPS LAST ACK; 
break; 
) 
if (tp && tp-»t state >= TCPS FIN WAIT 2) 
soisdisconnected(tp-»t inpcb-»inp socket); 
return (tp); 


tcp usrreq.c 


图 30-13 tcp_usrclosed 畏 数 : 基于 连接 关闭 的 处 理 进程 ， 将 连接 转移 到 下 一 状态 


30.6 tcp ctloutput M% 


tcp ctloutput 胃 数 被 getsockopt 和 setsockopt 钞 数 调用 ， 如 果 它 们 的 描述 符 参 
数 指明 了 一 个 TCP 插 口 ， 且 level 不 是 SOL SOCKET。 图 30-14 列 出 了 TCP 支 持 的 两 个 插口 选项 。 


ara EE 


TCP NODELAY t flags | 5 | | Nagel 算法 (图 26-8) | 8) 
TCP MAXSEG t maxseg 9 TCP 将 发 送 的 最 大 报 文 段 长 度 






图 30-14 TCP 支 持 的 插口 选项 


图 30-15 给 出 了 函数 的 第 一 部 分 。 





284 inc 


tcp. usrreq.c 


285 tcp ctloutput(op, so, level, optname, mp) 


286 int 


Op; 


287 struct socket *so; 


288 int 


level, optname; 


图 30-15 tcp ctloutputiAZK: 第 一 部 分 
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289 struct mbuf **mp; 


290 ( 

291 int error = 0, Ss 

292 struct inpcb *inp; 

293 struct toepcb *tp; 

294 struct mbuf *m; 

295 int 1; 

296 S = Ssplnet(); 

297 inp - sotoinpcb(so); 

298 it (inp == NULL) ( 

299 splxí(s); 

300 lf (op == PRCO.SETOPT && *mp) 
30] (void) m free(*mp); 

302 return (ECONNRESET); 

303 ) 

304 if (level !- IPPROTO TCP) ( 

305 error - ip ctloutput(op, so, level, optname, mp); 
306 Splixí(s); 

307 return (error); 

308 } 

309 tp = intotcpob(üinp); 





cp usrreq.c 
图 30-15 (£&) 


296-303 半数 执行 时 ， 处 理 絮 优先 级 设 为 splnet，inp 指 问 插 口 的 Internet PCB 。 如 果 inp 
为 空 ， 且 操作 类 型 是 设 定 插口 选项 ， 则 释放 mbuf 并 返回 错误 。 
304-308 如 果 level(getsockopt 和 setsockopt 系 统 调 用 的 第 二 个 参数 ) 不 等 于 
IPPROTO TCP, 说 明 操 作 的 是 其 他 协议 (如 IP)。 例 如 ， 可 以 创建 一 个 TCP 插 口 ， 并 设 定 其 IP 
源 选 路 插口 选项 。 此 时 应 由 IP 处 理 这 个 插口 选项 ， 而 不 是 TCP。ip_ct1loutput 处 理 命令 。 
309 如 东 是 对 TCP 选 项 进行 操作 ，tp 将 指 同 TCP 控 制 块 。 

国 数 的 剩余 部 分 是 一 个 switch 语 句 ， 有 两 个 分 支 : 一 个 处 理 PRCO_SETOPT( 图 30-16 中 


给 出 )， 另 一 个 处 理 PRCO_GETOPT( 图 30-17 中 给 出 )。 
tcp_usrreq.c 


310 switch (op) ( 

311 case PRCO SETOPT: 

cu ee. m = rib; 

313 switch (optname) { 

314 case TCP_NODELAY: 

315 if (m == NULL || m-»m len < sizeof(int)) 
316 error - EINVAL; 

317 else if (*mtod(m, int *)) 

318 tp-»t, flags |= TF, NODELAY; 
319 else 

320 tp-»t flags &- "TF NODELAY; 

3421 break; 

322 case TCP. MAXSEG: 

323 if (m && (i = *mtod(m, int *)) > 0 && i <= tp-»t. maxseg) 
324 tp-»t maxseg - i; 

325 else 

326 error - EINVAL; 

327 break; 


图 30-16 tcep_ctloutput Kğ: 设 定 插口 选项 
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328 default: 

329 error - ENOPROTOOPT; 
330 break; 

331 ) 

332 if (m) 

333 (void) m free(m); 
334 break; 


Icp  usrreq.c 
图 30-16 (£X) 
315-316 m 是 一 个 mbuf, 保存 了 setsockopt 的 第 四 个 参数 。 对 于 两 个 TCP 插 口 选项 
mbuf 中 都 必须 是 整数 。 如 果 任 何 一 个 mbuf 指 针 为 空 ， 或 者 mbuf 中 的 数据 长 度 小 于 整数 大 小 ， 
则 返回 错误 。 
1. TCP NODELAY X Jii 
317-321 如 果 整 数值 非 零 ， 则 置 位 TF_NODELRAY 标 志 ， 从 而 取消 图 26-8 中 的 Negal 算 法 。 如 
果 整 数值 等 于 0， 则 使 用 Negal 算 法 (默认 值 )， 并 清除 TF_NODELAY 标 志 。 
2. TCP MAXSEG 选 项 
322-327 应 用 进程 只 能 减少 MSS。TCP 插 口 创建 时 ，tcp_newtcpcb 初 始 化 t _maxseg 为 默 
认 值 512。 当 收 到 对 端 SYN 中 包含 的 MSS 选 项 上 时，tcp input 调 用 tcp mss, t maxseg 最 
高 可 等 于 外 出 接口 的 MTU( 减 去 40 字 市 ，IP 和 TCP 首 部 的 默认 值 )， 以 太 网 等 于 1460。 因 此 ， 
调用 插口 之 后 ， 连 接 建 立 之 前 ， 应 用 进程 只 能 以 默认 值 $12 为 起 点 ， 减 少 MSS。 连 接 建 立 后 ， 
应 用 进程 可 以 从 tcp_mss 选 取 的 任何 值 起， 减少 MSsS。 
4.4BSD 是 伯克利 版 本 中 第 一 次 支持 MSS 作 为 插口 选项 ， 以 前 的 版 本 只 允许 利用 
getsockopt;E£JAMSS/á, 
3. 释放 mbuf 


332-333 释放 mbuf 链 。 
图 30-17 给 出 了 PRCO GETOPT 命 令 的 处 理 。 


tcp_usrreq.c 
335 case PRCO GETOPT: 
336 *mp = m = m get(M WAIT, MT SOOPTS); 
337 m-»m len - sizeof(int); 
338 switch (optname) ( 
339 case TCP. NODELAY : 
340 *mtod(m, int *) = tp-»t flags & TF. NODELAY; 
341 break; 
342 case TCP MAXSEG: 
343 *mtod(m, int *) = tp-»t, maxseg; 
344 break; 
345 default: 
346 error - ENOPROTOOPT; 
347 break; 
348 ) 
349 break; 
350 ) 
351 splxí(s); 
352 return (error); 
353. 3j 
tcp usrreq.c 





图 30-17 tcp ctloutputrKAZ&: 读 取 插口 选项 
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335-337 两 个 TCP 插 口 选项 都 同 应 用 进程 返回 一 个 整数 值 ， 因 此 ， 调 用 m_get 得 到 一 个 
mbuf， 其 长 度 等 于 整数 长 度 。 

339-341 TCP NODELAYjR|MTF _ NODELAY 标 志 的 当前 状态 如 果 标 志 未 置 位 (使 用 Nagel 
算法 )， 则 等 于 0， 如 果 标 志 置 位 ， 则 等 于 TF_NODELRAY。 

342-344 TCP _MRAXSEG 选 项 返回 t_maxseg 的 当前 值 。 前 面 讨 论 PRCO_ SETOPT 命 令 时 曾 
提 到 ， 返 回 值 取决 于 揪 口 是 否 已 进入 连接 状态 。 


30.7 小 结 


tcp_usrreGg 国 数 处理 逻 辑 很 简单 ， 因 为 绝 大 多 数 处 理 都 由 其 他 国 数 完 成 。PRU_xxx 请 
求 是 独立 于 协议 的 系统 调用 与 TCP 协 议 处 理 则 的 桥梁 。 

tcp_ct1lsockopt 国 数 也 很 痪 单 ， 因 为 TCP 只 支持 两 个 播 口 选项 : 使 用 或 取消 Nagel 算 
法 ， 设 置 或 读 取 最 大 报 文 段 长 度 。 


习题 


30.1 现在 ， 我 们 已 经 结束 了 对 TCP 的 讨论 ， 如 果 某 个 客户 执行 了 正常 的 socket、 
connect, write (向 服务 器 请 求 ) 和 read( 读 取 服 务 器 响应 )， 分 别 列 出 客户 端 和 
服务 絮 端 的 处 理 步 最 及 TCP 状 态 变 迁 。 

30.2 如 果 应 用 进程 设 定 SO_LINGER 插 口 选 项 ， 且 拖延 时 间 等 于 0， 之 后 调用 close， 我 
们 给 出 了 如 何 调用 tcp_disconnect， 从 而 发 送 RST。 如 果 应 用 进程 设 定 了 这 个 
插口 选项 ， 且 拖延 时 间 等 于 0， 之 后 进程 被 某 个 信号 杀 死 (Kill)， 而 非 调 用 close， 
会 发 生 什 么 ? 还 会 发 送 RST 报 文 段 吗 ? 

30.3 图 2$-4 中 摘 述 TCP_LINGERTIME 时 ， 称 之 为 “SO_LINGER 插 口 选 项 的 最 大 秒 数 ”。 
根据 图 30-2 中 的 代码 ， 这 个 说 法 正确 吗 ? 

30.4 某 个 Net/3 客 户 调用 socket 和 connect， 主动 与 服务 器 建立 连接 ,使 用 了 客户 的 
默认 路 由 。 客 户主 机 向 服务 器 发 送 了 1 129 个 报 文 段 。 假 定 到 达 目 的 地 的 路 由 未 变 ， 
为 了 这 条 连接 ， 客 户主 机 需要 搜索 多 少 次 路 由 表 ? 解释 你 的 结论 。 

30.5 找到 卷 1 的 附录 C 中 提 到 的 sock 程 序 。 把 该 程序 作为 服务 器 运行 ， 读 取 数 据 前 有 停 
顿 (-p)， 且 有 较 大 的 接收 缓存 。 之 后 在 另 一 个 系统 中 运行 同一 个 程序 ， 但 作为 客户 。 
通过 tcpdump 查 看 数据 。 确 认 TCP “确认 所 有 其 他 报 文 段 ”的 属性 未 出 现 ， 服 务 器 
送 出 的 ACK 全 部 是 延迟 ACK。 

30.6 修改 SoO_KEEPRALIVE 揪 口 选项 ， 从 而 能 够 配置 每 个 连接 的 参数 。 

30.7 阅读 REFC 1122， 了 解 为 什么 它 建 议 TCP 应 该 允许 RST 报 文 段 携带 数据 。 修 改 Net/3 代 
码 以 实现 此 功能 。 
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BSD 分 组 过 滤 程 序 (BPF) 是 一 种 软件 设备 ， 用 于 过 滤 网 络 接口 的 数据 流 ， 即 给 网 络 接口 加 
上 “开关 ”。 应 用 进程 打开 /dev/bpf0、/dev/bpf1 等 等 后 ， 可 以 读 取 BPF 设 备 。 每 个 应 用 
进程 一 次 只 能 打开 一 个 BPF 设 备 。 

因为 每 个 BPF 设 备 需要 8192 字 节 的 缓存 ， 系 统管 理 员 一 般 限 制 BPF 设 备 的 数目 。 

如 果 open 返 回 EBBUSY， 说 明 该 设备 已 被 使 用 ， 应 用 进程 应 该 试 着 打开 下 一 BPF 设 备 ， 

直到 open 成 功 为 止 。 


通过 阁 干 oct1l 命 令 ， 可 以 配置 BPF 设 备 ， 把 它 与 某 个 网 络 接口 相关 联 ， 并 安装 过 滤 程 
序 ， 从 而 能 够 选择 性 地 接收 输入 的 分 组 。BPF 设 备 打开 后 ， 应 用 进程 通过 读 写 设备 来 接收 分 
组 ， 或 将 分 组 放 入 网 络 接口 队列 中 。 


我 们 将 一 直 使 用 “分 组 ”， 尽 管 “ 帧 ”可 能 更 准确 一 些 ， 因 为 BPF 工 作 在 数据 链 

路 层 ， 在 发 送 和 接收 的 数据 帧 中 包含 了 链 路 层 的 首部 。 

BPF 设 备 工作 的 前 提 是 网 络 接口 必须 能 够 支持 BPF。 第 3 章 中 提 到 以 太 网 、SLIP 和 环 回 接 
口 的 驱动 程序 都 调用 了 bpfattach， 用 于 配置 读 取 BPF 设 备 的 接口 。 本 节 中 ， 我 们 将 介绍 
BPF 设 备 驱 动 程序 是 如 何 组 织 的 ， 以 及 数据 分 组 在 驱动 程序 和 网 络 接口 之 间 是 如 何 传 递 的 。 

BPF 一 般 情况 下 用 作 诊 断 工具 ， 查 看 某 个 本 地 网 络 上 的 流量 ， 卷 1 附录 A 介绍 的 tcpdump 
程序 是 此 类 工具 中 最 好 的 一 个 。 通 常情 况 下 ， 用 户 感 兴趣 的 是 一 组 指定 主机 间 交 互 的 分 组 ， 
或 者 某 个 特定 协议 ， 其 至 某 个 特定 了 TCP 连接 上 的 数据 流 。BPF 设 备 经 过 适当 配置 ， 能 够 根据 过 
滤 程 序 的 定义 丢弃 或 接受 输入 的 分 组 。 过 滤 程 序 的 定义 类 似 于 伪 机 器 指令 ，BPF 的 细节 超出 
了 本 书 的 讨论 范围 ， 感 兴趣 的 读者 请 参阅 bpf(4) 和 [McCanne and Jacobson 1993], 


31.2 代码 介绍 
下 面 将 要 介绍 的 有 关 BPF 设 备 驱动 程序 的 代码 ， 包 括 两 个 头 文件 和 一 个 C 文 件 ， 在 图 31-1 


中 给 出 。 


net/bpf.h BPF% i 
net/bpfdesc.h BPF 结 构 
BFF 设备 
图 31-1 本 章 讨论 的 文件 





31.2.1 全 局 变量 
本 章 用 到 的 全 局 变量 在 图 31-2 中 给 
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bpf iflist struct bpf if * D 支持 BPF 的 接口 组 成 的 链表 


bpf dtab struct bpf d [] BPFiüy^ FF CH 
bpf bufsize int BPF 缓 存 大 小 默认 值 





图 31-2 本 章 用 到 的 全 局 变量 


31.2.2 统计 量 
图 31-3 列 出 了 bpf_a 结 构 中 为 每 个 活动 的 BPF 设 备 维护 的 两 个 统计 量 。 


bpr ampi 
bd rcount 从 网 络 接口 接收 的 分 组 的 数目 
bd dcount 由 于 缓存 空间 不 足 而 丢弃 的 分 组 的 数目 


图 31-3 本 章 讨论 的 统计 值 





本 章 的 其 余 内 容 分 为 4 个 部 分 : 
"BPF 接 口 结构 ， 

° BPF fa fih 14 ; 
“BPF 输 入 处 理 ， 
“BPF 输 出 处 理 。 


31.3 bpf if 结 构 


BPF 维 护 一 个 链表 ， 包 括 所 有 支持 BPF 的 网 络 接口 。 每 个 接口 都 由 一 个 bpf_if 结 构 描述 ， 
全 局 指针 bpf_if1list 指 向 表 中 的 第 一 个 结构 。 图 31-4 给 出 了 BPF 接 口 结构 。 


: bpfdesc.h 
67 struct bpf if ( 
68 struct bpf if *bif next; /* list of all interfaces */ 
69 struct bpf d *bif dlist; /* descriptor list */ 
70 struct bpf if **bif driverp; /* pointer into softc */ 
71 u int bif dlt; /* link layer type */ 
72 u int bif hdrlen; /* length of header (with padding) */ 
73 struct ifnet *bif ifp; /* correspoding interface */ 
74 ) 

bpfdesc.h 


图 31-4 bpf if 结构 


67-79 bif _next 指 向 链表 中 的 下 一 个 BPF 接 口 结构 。bif dlist 指 向 另 一 个 链表 ， 包 括 
所 有 已 打开 并 配置 过 的 BPF 设 备 。 

70 如 果菜 个 网 络 接口 已 配置 了 BPF 设 备 ， 即 被 加 上 了 开关 ， 则 bif_driverp 将 指向 ifnet 
结构 中 的 bpf_if 指 针 。 如 果 网 络 接口 还 未 加 上 开关 ，*bif_driverp 为 空 。 为 某 个 网 络 接 
口 配置 BPF 设 备 时 ，*bif_driverp 将 指向 bif_if 结 构 ， 从 而 告诉 接口 可 以 开始 向 BPF 传 递 
分 组 。 

71 接口 类 型 保存 在 bif_dlt 中 。 图 31-5 中 列 出 了 前 面 提 到 的 几 个 接口 所 分 别 对 应 的 常量 值 。 
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bif dlt 


DLT EN10MB 10 Mb 以 太 网 接口 


DLT SLIP SLIP 接 口 
DLT NULL 环 回 接口 





图 31-5 bif dit 值 
72-74 BPF 接 受 的 所 有 分 组 都 有 一 个 附加 的 BPF 首 部 。bif_hdrlen 等 于 首部 大 小 。 最 后 ， 
bif_ifp 指 问 对 应 接口 的 ifnet 结 构 。 
图 31-6 给 出 了 每 个 输入 分 组 中 附加 的 bpf_har 结 构 。 








122 struct bpf hdr 1 d 
123 struct timeval bh tstamp; /* time stamp */ 
124 u long bh, caplen; /* length of captured portion */ 
125 u long bh datalen; /* original length of packet */ 
126 u short bh hdrlen; /* length of bpf header (this struct plus 
121 alignment padding) */ 
128 }; 
bpf.h 


图 31-6 bpf_hdr 结 构 


122-128 bh _tstamp 记 录 了 分 组 被 捕捉 的 时 间 。bh_caplen 等 于 BPF 保 存 的 字 节 数 ， 
bh_datalen 等 于 原始 分 组 中 的 字 市 数 。bh_headlen 等 于 bpf_hdr 的 大 小 加 上 所 需 填 充 字 
证 的 长 度 。 它 用 于 解释 从 BPF 设 备 中 读 取 的 分 组 ， 应 该 等 同 于 接收 接口 的 bif_harlen。 

图 31-7 给 出 了 bpf_if 结 构 是 如 何 与 前 述 3 个 接口 (le_softc [0]、sl softc[0] 和 
loif) 的 ifnet 结 构建 立 连接 的 。 


BBE iT13i8t: 
m 
bpf ifí() bpf ifí() bpf if() 
bif alist jwrr [bit alist wu. [bit alist  |wunL d. 
bitais [pur evom bif-dit —— |DLT SLIP DT. NULL 
bif hdrlen 1418 bif hdrlen |20 bif hdrlen |20 


Pt softc[0]: sl. softc[0]: - loTf: 











图 31-7 bpf if 和 iftnet 结 构 


注意 ，bif_qdriverp 指 癌 网 络 接口 的 if_bpf 和 sc_bpf 指 针 ， 而 不 是 接口 结构 。 
SLIP 设 备 使 用 sc_bpf， 而 不 是 if_bpf。 这 可 能 是 因为 SLIP BPF 代 码 完 成 时 ， 
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if bpf 成 员 变 量 还 未 加 入 到 ifnet 结 构 中 。Net/2 中 的 ifnet 结 构 不 包括 if_bpf 


成 员 。 


按照 各 接口 驱动 程序 调用 bpfattach 时 给 出 的 信息 ， 对 3 个 接口 初始 化 链 路 类 型 和 首部 
长 度 成 员 变 量 。 

第 3 章 介 绍 了 bpfattach 被 以 太 网 、SLIP 和 环 回 接口 的 驱动 程序 调用 。 每 个 设备 驱动 程 
序 初始 化 调用 bpfattach 时 ， 将 构建 BPF 接 口 结构 链表 。 图 31-8 给 出 了 该 函数 。 


bpf.c 


1053 void 

1054 bpfattach(driverp, ifp, dlt, hdrlen) 
1055 caddr t *driverp; 

1056 struct ifnet *ifp; 

1057 u int dlt, hdrlen; 


1058 ( 
1059 
1060 
1061 
1062 
1063 


1064 
1065 
1066 
1067 


1068 
1069 


1070 


1013 
1072 
1073 
1074 
1075 
1076 
1077 


1078 
1079 
1080 
1081 
1082 
1083 


1084 
1085 } 


struct bpf if *bp; 


int i; 
bp = (struct bpf if *) malloc(sizeof(*bp), M DEVBUF, M DONTWAIT); 
if (bp == 0) 


panic("bpfattach"); 


bp-»bif dlist - 0; 


bp-»bif driverp - (struct bpf if **) driverp; 
bp-»bif ifp - ifp; 
bp-»bif dlt s dlt; 


bp-»bif next = bpi iflist; 
bpf iflist = bp; 


*bp-»bif driverp = 0; 


/* 
* Compute the length of the bpf header. This is not necessarily 
* equal to SIZEOF BPF HDR because we want to insert spacing such 
* that the network layer header begins on a longword boundary (for 
* performance reasons and to alleviate alignment restrictions). 
"P 
bp-»bif hdrlen = BPF WORDALIGN(hdrlen + SIZEOF BPF HDR) - hdrlen; 
/* 
* Mark all the descriptors free if this hasn't been done. 
LÀ 
if (!D ISFREE(&bpf, dtab[0])) 
for (i = 0; i « NBPFILTER; ++i) 
D MARKFREE(&bpf dtab[i]); 


printf("bpf: %s%d attachedWMn", ifp-»if name, ifp-»if unit); 
bpf.c 


图 31-8 bpfattach pk% 


1053-1063 每 个 支持 BPF 的 设备 驱动 程序 都 将 调用 bpfattach。 第 一 个 参数 是 保存 在 
bif_driverp 的 指针 (图 31-4 给 出 )， 第 二 个 参数 指向 接口 的 1fnet 结 构 ， 第 三 个 参数 确认 数 
据 链 路 层 类 型 ， 第 四 个 参数 传递 分 组 中 的 数据 链 路 首部 大 小 ， 为 接口 分 配 一 个 新 的 bpf_if 


结构 。 
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1. 初始 化 bpf if 结构 
1064-1070 bpf_ if 结构 根据 函数 的 参数 进行 初始 化 ， 并 插入 BPF 接 口 链表 , 
bpf iflist， 的 表 头 。 

2. 计算 BPF 首 部 大 小 
1071-1077 设 定 bif_hdrlen 大 小 ， 强 迫 网 络 层 首部 (如 IP 首 部 ) 从 一 个 长 字 的 边界 开始 。 
这 样 可 以 提高 性 能 ， 避 人 免 为 BPF 加 入 不 必要 的 对 齐 限制 。 图 31-9 列 出 了 在 前 述 3 个 接口 上 ， 各 
自 捕捉 到 的 BPF 分 组 的 总 体 结构 。 


on $0] 
18 字 节 填充 14 字 节 


IP 分 组 


[woes | | re 9 
183€ 27r 16 字 节 
填充 
环 回 伪 链 路 首部 
we | | | wm 9 
18 字 节 2 字 节 ”4 字 节 


图 31-9 BPF 分 组 结构 


ether _ headezr 结 构 在 图 4-10 中 给 出 ，SLIP 伪 链 路 首部 在 图 $-14 中 给 出 ， 而 环 回 接口 伪 
链 路 首部 在 图 $-28 中 给 出 。 

请 注意 ，SLIP 和 环 回 接口 分 组 需要 填充 2 字 节 ， 以 强迫 IP 首 部 按 4 字 市 对 齐 。 

3. 初始 化 bppf dtab 表 
1078-1083 代码 初始 化 图 31-10 中 给 出 的 BPF 描 述 符 表 。 注 意 ， 仅 在 第 一 次 调用 
bpfattach 时 进行 初始 化 ， 后 续 调 用 将 跳 过 初始 化 过 程 。 

4. 打印 控制 台 信 息 
1084-1085 系统 向 控制 台 输出 一 条 短信 息 ， 宣 告 接口 已 配置 完毕 ， 可 以 支持 BPF。 


31.4 bpf qd 结构 


为 了 能 够 选择 性 地 接收 输入 报 文 ， 应 用 进程 首先 打开 一 个 BPF 设 备 ， 调 用 若干 ict1 命 令 
规定 BPF 过 滤 程 序 的 条 件 ， 指 明 接 口 、 读 缓存 大 小 和 超时 时 限 。 每 个 BPF 设 备 都 有 一 个 相关 的 
bpf_d 结 构 ， 如 图 31-10 所 示 。 

45-46 ”如 果 同 一 网 络 接口 上 配置 了 多 个 BPF 设 备 ， 与 之 相应 的 bpf_d 结 构 将 组 成 一 个 链表 。 
bd_next 指 向 链表 中 的 下 一 个 结构 。 

分 组 缓存 
47-52 每 个 bpf_d 结 构 都 有 两 个 分 组 缓存 。 输 入 分 组 通常 保存 在 bd_sbuf 所 对 应 的 缓存 ( 存 
储 缓存 ) 中 。 另 一 个 缓存 要 么 对 应 于 bd_fbuf( 空 闲 缓存 ) ， 意 味 着 缓存 为 空 ， 或 者 对 应 于 
bd _hbuf( 暂 留 缓存 )， 意 味 着 缓存 中 有 分 组 等 待 应 用 进程 读 取 。kbd_slen 和 bd_hlen 分 别 记 
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K T RERA a RPF TTR 


bpfdesc.h 
45. struct bpf d ( 
46 struct bpf, d *bd next; /* Linked list of descriptors */ 
47 caddr. t bd, sbuf; /* store slot *j 
48 caddr t bd hbuf; /* hold slot */ 
49 caddr t bd. fbuf; /* Tree slot */ 
50 Ine bd slen; /* current length of store buffer */ 
51 int bd hlen; /* current length of hold buffer */ 
52 lur bd bufsize; /* absolute length of buffers */ 
53 struct bpf if *bd bif; /* interface descriptor */ 
54 u long bd rtout; /* Read timeout in 'ticks' */ 
55 struct Dbptf.insn *bd.filter; /* filter code *y/ 
56 u long bd rcount; /* number of packets received */ 
51 u long bd dcount; /* number of packets dropped */ 
58 u char bd promisc; /* true if listening promiscuously */ 
59 u char bd state; /*. idle, waiting, or timed out */ 
60 u_char bd immediate; /* true to return on packet arrival */ 
61 u char bd pad; /* explicit alignment */ 
62 struct selinfo bd sel; /* bsd select info */ 
53 lr 
bpfdesc.h 


图 31-10 bpf aq 结 构 


如 果 存 储 缓存 已 满 ， 它 将 被 连接 到 bd_hbuf ， 而 空闲 缓存 将 被 连接 到 bd_sbuf。 当 和 暂 留 
缓存 清空 时 ， 它 会 被 连接 到 bqd_fbuf。 宏 ROTATE_BUFFERS 人 负责 把 存储 缓存 连接 到 
bd_hbuf ， 空 内 缓存 连接 到 bd_sbuf， 并 清空 bd_fbuf。 存 储 缓存 满 或 者 应 用 进程 不 想 册 
等 待 更 多 的 分 组 时 调用 该 宏 。 

bd _bufsize 记 录 与 设备 相连 的 两 个 缓存 的 大 小 ， 其 默认 值 等 于 4096(BPF_BUFSIZE) 字 
节 。 修 改 内 核 代码 可 以 改变 默认 值 大 小 ， 或 者 通过 BIOCSBLEN ioct1 命 令 改变 某 个 特定 
BPF 设 备 的 bd bufsize。BIOCGBLEN 命 令 返 回 bda_bufsize 的 当前 值 ， 其 最 大 值 不 超过 
32768 (BPF MAXBUFSIZE) 字 广 ， 最 小 值 为 32 (BPF MINBUFSIZE)Y d, 

53-57 bd_bif 指 向 BPF 设 备 所 对 应 的 bppf_if 结 构 。BIOCSETIF 命 令 可 指明 设备 。 
bdq_rtout 是 等 待 分 组 时 ， 延 迟 的 滴答 数 。bda_filtez 指 癌 BPEF 设 备 的 过 着 程序 代码 。 两 
个 统计 值 ， 应 用 进程 可 通过 BIOCGSTATS 命 令 读 取 ， 分 别 保存 在 bd_rcount 和 
bd dcount'Hh, 

58-63 ba promisc 通 过 BIOCPROMISC 命 令 置 位 ， 从 而 使 接口 工作 在 混杂 
(promiscuous) 状 态 。 bd _ state 未 使 用 , bd ijmmediate 通 过 BIOCIMMEDIATE 命 令 置 位 ， 
促使 驱动 程序 收 到 分 组 后 即 返 回 ， 不 再 等 待 暂 留 缓存 填 满 。bd_pad 填 充 bpf_d 结 构 ， 从 而 
与 长 字 边 界 对 齐 。bd_sel 保 存 的 selinfo 结 构 ， 可 用 于 select 系 统 调用 。 我 们 不 准备 介绍 
如 何 对 BPF 设 备 使 用 select 系 统 调用 ，16.13 市 已 介绍 了 人 select 的 一 般 用 法 。 


31.4.1 bpfopen ZI 


应 用 进程 调用 open， 试 图 打开 一 个 BPF 设 备 时 ， 该 调用 将 被 转 到 bpfopen( 图 31-11)。 
256-263 系统 编译 时 ，BPF 设 备 的 数目 受到 NBPFILTER 的 限制 。 如 果 设 备 的 最 小 设备 号 大 
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于 NBPFILTER， 则 返回 ENXIO， 这 是 因为 系统 管理 员 创 建 的 /dev/bpfx 项 数 大 于 
NBPFILTER 的 值 。 


256 inE "e 
257 bpfopen(dev, flag) 
258 dev t dev; 
259 int flag; 
260 ( 
261 struct bpf d *d; 
262 if (minor(dev) »- NBPFILTER) 
263 return (ENXIO); 
264 p 
265 * Each minor can be opened by only one process. If the requested 
266 * minor is in use, return EBUSY. 
267 *J 
268 d = &bpf dtab[minor(dev)]; 
269 if (!D ISFREE(d)) 
270 return (EBUSY); 
271 /* Mark "free" and do most initialization. */ 
272 bzero((char *) d, sizeof (*d))? 
273 d-»bd bufsize - bpf bufsize; 
274 return (0); 
275 ) 
bpf.c 
图 31-11 bpfopen 国 数 
分 配 bpf_d 结 构 


264-275 同一 时 间 内 ， 一 个 应 用 进程 只 能 访问 一 个 BPF 设 备 。 如 果 bpf_ aq 结构 已 被 激活 ， 
则 返回 BEBBUSY。 应 用 程序 ， 如 tcpdaump ， 收 到 此 返回 值 时 ， 会 自动 寻找 下 一 个 设备 。 如 果 该 
设备 已 存在 ， 最 小 设备 号 所 指定 的 bppf_dtab 表 中 的 项 被 清除 ,分 组 缓存 大 小 复位 为 默认 值 。 


31.4.2 bpfioctliZi 


设备 打开 后 ， 可 通过 ioct1 命 令 进 行 配置 。 图 31-12 总 结 了 与 BPF 设 备 有 关 的 ioct1 命 令 。 
图 31-13 给 出 了 bpfioct1 图 数 ， 只 列 出 BIOCSETEF 和 BIOCSETIE 的 处 理 代 码 ， 其 他 未 涉及 
的 ioct1 命 令 则 被 忽略 。 


FIONREAD bpfioctl 返回 暂 留 缓存 和 存储 缓存 中 的 字 节 数 
BIOCGBLEN bpfioctl 返回 分 组 缓存 大 小 
BIOCSBLEN bpfioctl 设 定 分 组 缓存 大 小 
BIOCSETF bpf program bpf setf 安装 BPF 程 序 

BIOCFLUSH reset d 丢弃 挂 起 分 组 
BIOCPROMISC ifpromisc 设 定 混杂 方式 

BIOCGDLT u int bpfioctl 返回 bif dlt 
BIOCGETIF struct ifreq bpf ifname 返回 所 属 接口 的 名 称 
BIOCSETIF struct ifreq bpf setif 为 网 络 接口 添加 设备 
BIOCSRTIMEOUT struct timeval bpfioctl 设 定 “ 读 ”操作 的 超时 时 限 
BIOCGRTIMEOUT struct timeval bpfioctl 返回 “ 读 ” 操 作 的 超时 时 限 
BIOCGSTATS struct bpf stat bpfioctl 返回 BPF 统 计 值 
BIOCIMMEDIATE u int bpfioctl 设 定 立即 方式 
BIOCVERSION struct bpf version bpfioctl 返回 BPF 版 本 信息 


图 31-12 BPF ioct1 命 令 
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501 int ue 
502 bpfioctl(dev, cmd, addr, flag) 
503 dev t dev; 
504 int cmd; 
505 caddr.t addr; 
506 int flag; 
507 ( 
508 struct bpf d *d = &bpf dtab[minor(dev)]; 
509 int 8, error z 0; 
510 switch (cmd) ( 
511 £^ 
512 * Set link layer read filter. 
513 * d 
514 case BIOCSETF: 
515 error = bpf setf(d, (struct bpf, program *) addr); 
516 break; 
517 /* 
518 * Set interface. 
9519 "i 
520 case BIOCSETIF: 
521 error = bpf setif(d, (struct ifreq *) adar); 
522 break; 

—' .. f*.other ioctl commands from Figute 31.12 */ ^  . 
668 default: 
669 error - EINVAL; 
670 break; 
671 ) 
672 return (error); 
673 ) 

bpf.c 


图 31-13 bpfioctlrA7K 


501-509 与 ppfopen 类 似 ， 通过 最 小 设备 号 从 bpf_dtab 表 中 选取 相应 的 bpf_d 结 构 。 整 个 
命令 处 理 是 一 个 大 的 switch/case 话 句 。 我 们 给 出 了 两 个 命令 ，BIOCSETEF 和 BIOCSETIE， 以 
及 default 子 句 。 

510-522 bpf setf 函 数 安装 由 addr 指 癌 的 过 滤 程 序 ，bpf _ setif 建 立 起 指定 名 称 接 口 
与 ppf_d 结 构 间 的 对 应 关系 。 本 书 中 没有 给 出 bpf_setf 的 实现 代码 。 

668-673 如 果 命 令 未 知 ， 则 返回 EINVAL。 

图 31-14 的 例子 中 ，bpf _ setif 已 把 bpf qd 结构 连接 到 LANCE 接 口上 。 

图 中 ，bif_dlist 指 向 bpf_dtab[0]， 以 太 网 接口 描述 符 链 表 中 的 第 一 个 也 是 仅 有 的 一 
个 摘 述 符 。 在 bpf_dtab[0] 中 ，bq_sbuf 和 bqd_hbuf 成 员 分 别 指向 存储 缓存 和 和 暂 留 缓存 。 两 
个 缓存 大 小 都 等 于 4096(ba_ bufsize) 字 节 。bd bif 回 指 接口 的 bpf ift. 

ifnet 结 构 (le softc[0]) 中 的 if _ bpf 也 指 回 bpf_iE 结 构 。 如 图 4-19 和 图 4-11 所 示 ， 
如 有 果 if£_bpf 非 空 ， 则 驱动 程序 开始 调用 bpf_tap， 同 BPF 设 备 传递 分 组 。 

图 31-15 接 着 图 31-10， 给 出 了 打开 第 二 个 BPF 设 备 ， 并 连接 到 同一 个 以 太 网 网 络 接口 后 的 
各 结构 变量 的 状态 。 
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bpf iflist: 





----- > 到 其 他 bpf_if 结 构 


le softc[0 




















bd slen 
bd hlen 
bd bufsize 











bpf dtab[2] € 
bpf dtab[NBPFILTER-1] 


图 31-14 连接 到 以 太 网 接口 的 BPF 设 备 


bpf iflist: 







bpf ifí() 
----- = 到 其 他 bpf_if 结 构 

















bpf dtab: 
bd "err NULL 
ES 
E - | bd fbuf | 
exis slen ass 
E | hlen 
ET - | bufsize pios 
—bd bif | 
| bd next  |NULL 
RICE E 
| ie 





ERE 
E o slen Kocan 
bd hlen 
bd bufsize dis 
—bd bif X | bif 


图 31-15 连接 到 以 太 网 接口 的 两 个 BPF 设 备 


bpf dtab[2] € 
bpf dtab[NBPFILTER-1] 
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第 二 个 BPF 设 备 打 开 时 ,在 bpf_dtab 表 中 分 配 一 个 新 的 bppf_d 结 构 ， 本 例 中 为 
bpf_dtab[1]。 因 为 第 二 个 BPF 设 备 也 连接 到 同一 个 以 太 网 接口 ，bif dlist 指 向 
bpf_dtab[1]， 并且 bpf_dtab[1].bqd_next 指 向 ppf_dtab[0]， 即 以 太 网 上 对 应 的 第 一 个 
BPF 拉 述 符 。 系 统 为 新 的 描述 符 结构 分 别 分 配 存储 缓存 和 和 暂 留 缓存 。 


31.4.3 bpf setif 函 数 


bpf_setif 畏 数 ， 负 责 建立 BPF 拉 述 符 与 网 络 接口 间 的 连接 ， 如 图 31-16 所 示 。 





bpf.c 


721 static int 

722 bpf setif(d, ifr) 
729 Stroct bpr.à *d; 
724 struct ifreq *ifr; 


725 ( 

726 struct bpf if *bp; 

727 char *epi 

728 int unit, S, error; 

729 p 

730 * Separate string into name part and unit number. Put a null 
TE * byte at the end of the name part, and compute the number. 
132 * If the a unit number is unspecified, the default is 0, 
733 * as initialized above. XXX This should be common code. 
734 af i 

735 unit z 0; 

736 Cp = ifr-»ifr. name; 

737 cp[sizeof(ifr-»ifr name) - 1] = 'wN0'; 

738 while (*cp«-«) ( 

739 LE. ("CD >m '"0' &EgE *cp «a '9*) ( 

740 unit = *cp = '0*; 

741 *CD4 = 'NO'; 

742 while (*cp) 

743 unit = 10 * unit + *cp++ - '0'; 

744 break; 

745 ) 

746 ) 

747 y* 

748 * Look through attached interfaces for the named one. 
749 *7 

750 for (bp = bpf iflist; bp t= 0; bp = bp-»bif next) ( 

751 struct ifnet *ifp - bp-»bif ifp; 

752 if (ifp ss || unit != ifp-»if unit 

1253 I| strcmp(ifp-»if name, ifr-»ifr name) !- 0) 

754 continue; 

755 fs 

756 * We found the requested interface. 

757 * If it's not up, return an error. 

758 * Allocate the packet buffers if we need to. 

759 * If we're already attached to requested interface, 
760 * just flush the buffer. 

761 "y 

762 if ((ifp-»if flags & IFF UP) == 0) 

763 return (ENETDOWN); 


图 31-16 bpf setif 国 数 
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764 if (d-»bd sbuf == 0) { 
765 error = bpf allocbufs (d); 
766 1f (error t= 9) 
767 return (error); 
768 ) 
769 S = Splimp(); 
770 if (bp l= d-»bd bif) + 
771 if (d-»bd bif) 
772 p" 
713 * Detach if attached to something else. 
774 "f 
775 bpf, detachd (d) ; 
776 bpf attachd(d, bp); 
TT } 
778 reset d(d); 
779 Splx(s); 
780 return (0); 
781 ) 
782 /* Not found. */ 
783 return (ENXIO); 
784 ) 
bpf.c 
31-16 (£x) 


721-746 bpf_setif 的 第 一 部 分 完成 1freq 结 构 ( 图 4-23) 中 接口 名 的 正文 与 数字 部 分 的 分 
离 ， 数 字 部 分 保存 在 unit 中 。 例 如 ， 如 果 ifr_name 的 头 4 字 节 为 “s11\0”"， 代 码 执 行 完毕 
后 ， 将 等 于 “sl\0\0”"， 且 unit 等 于 1。 

1. 寻找 匹配 的 ifnet 结 构 
747-754 for 循环 用 于 在 支持 BPF 的 接口 ppf _if1list 中 ) 中 查找 符合 ifreq 定 义 的 接口 。 
755-768 ”如果 未 找到 匹配 的 接口 ， 则 返回 ENETDOWN。 如 果 接 口 存 在 ，bpf allocateJj 
bpf 4d 分配 空 几 缓 存 和 存储 缓存 ， 如 果 它 们 还 未 被 分 配 的 话 。 

2. 连接 bpf _d 结 构 
769-777 如 果 BPF 设 备 还 未 与 网 络 接 口 建立 连接 关系 ， 或 者 连接 的 网 络 接口 不 是 ifreq 中 
指定 的 接口 ， 则 调用 bpf_detachd 丢 弃 原 先 的 接口 (如 果 存 在 )， 并 调用 bpf_attachd 将 其 
连接 到 新 的 接口 上 。 
778-784 Leset_d 复 位 分 组 缓存 ， 丢 奔 所 有 在 应 用 进程 中 等 待 的 分 组 。 国 数 返 回 0， 说 明 
处 理 成 功 ， 或 者 ENXIO， 说 明 未 找到 指定 接口 。 


31.4.4 bpf _ attachd 函 数 


图 31-17 给 出 的 bpf_attachd 函 数 ， 建 立 起 BPF 描 述 符 与 BPF 设 备 和 网 络 接口 间 的 对 应 关系 。 
bpf.c 


189 static void 

190 bpf attachd(d, bp) 
191 struct bpf d *d; 
192 struct bpt if woe 


193 1 
194 ps 
195 * Point d at bp, and add d to the interface's list of listeners. 


图 31-17 bpf attachdtK 
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196 * Finally, point the driver's bpf cookie at the interface so 
197 * it will divert packets to bpf. 
198 * JI 
199 d-»bd. bif s bp; 
200 d-»bd next - bp-»bif dlist; 
201 bp-»bif dlist = d; 
202 *bp-»bif driverp = bp; 
203 ) 
bpf.c 
[31-17 (£x) 


189-203 首先 ， 令 ba_bif 指 向 网 络 接口 的 BPF 接 口 结构 。 接 着 ，bpf_d 结 构 被 插入 与 设备 
对 应 的 ppf_d 结 构 链表 的 头 部 。 最 后 ， 改 变 网 络 接口 中 的 BPF 指 针 ， 指 向 当前 BPF 结 构 ， 从 而 
促使 接口 向 BPF 设 备 传递 分 组 。 


31.5 BPF 的 输入 


一 旦 BPF 设 备 打 开 并 配置 完毕 ， 应 用 进程 就 通过 read 系 统 调用 从 接口 中 接收 分 组 。BPF 
过 滤 程 序 复制 输入 分 组 ， 因 此 ， 不 会 干扰 正常 的 网 络 处 理 。 输 入 分 组 保存 在 与 BPF 设 备 相连 
的 存储 缓存 和 和 暂 留 缓 存 中 。 


31.5.1 bpf tapiAZi 


下 面 列 出 了 图 4-11 中 LANCE 设 备 驱 动 程序 调用 bpf_tap 的 代码 ， 并 利用 这 一 调用 介绍 
bpf_tap 国 数 。 图 4-11 中 的 调用 如 下 : 


bpf tap(le-»sc if.if bpf, buf, len + sizeof(struct ether header)); 


图 31-18 给 出 了 bpf tap 国 数 。 





869 void phe 
870 bpf tap(arg, pkt, pktlen) 
871 caddr t arg; 
872 u char *pkt; 
8735, u int pktlen; 
874 ( 
875 struct bpf 1f *bp; 
876 struct bpf d *d; 
877 u int slen; 
878 6* 
879 * Note that the ipl does not have to be raised at this point. 
880 * The only problem that could arise here is that if two different 
881 * interfaces shared any data. This is not the case. 
882 wy 
883 bp = (struct bp£f if *) aro; 
884 for (d = bp-»bif dlist; d i= 0; d => d-»bd.next) ( 
885 *t*d-»bd rcount; 
886 slen - bpf filter(d-»bd filter, pkt, pktlen, pktlen); 
887 if (slen !- 0) 
888 catchpacket(d, pkt, pktlen, slen, bcopy); 
889 ) : 
890 ) 
bpf.c 


图 31-18 bpf tapt% 
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869-882 第 一 个 参数 是 指 同 bpf_if 结 构 的 指针 ， 由 bpfattach 设 定 。 第 二 个 参数 是 指 问 
进入 分 组 的 指针 ， 包 括 以 太 网 首部 。 第 三 个 参数 等 于 缓存 中 包含 的 字 市 数 ， 本 例 中 ， 等 于 以 
太 网 首部 (14 字 节 ) 大 小 加 上 以 太 网 帧 的 数据 部 分 。 

向 一 个 或 多 个 BPF 设 备 传递 分 组 
883-890 for 循环 遍历 连接 到 网 络 接口 的 BPF 设 备 链 表 。 对 每 个 设备 ,分 组 被 递交 给 
bpf_filter。 如 果 过 着 程序 接受 了 分 组 ， 它 返回 捕捉 到 的 字 节 数 ， 并 调用 catchpacket 
复制 分 组 。 如 果 过 滤 程 序 拒绝 了 分 组 ，slen 等 于 0， 人 循环 继续 。 人 循环 终止 时 ，bpf_tap 返 回 。 
这 一 机 制 确保 了 同一 网 络 接口 上 对 应 了 多 个 BPF 设 备 时 ， 每 个 设备 都 能 拥有 一 个 独立 的 过 滤 
程序 。 

环 回 驱 动 程序 调用 bpf_mtap， 癌 BPF 传 递 分 组 。 这 个 尔 数 与 ppf_tap 类 似 ， 然 而 是 在 
mbuf 链 ， 而 不 是 在 一 个 内 存 的 连续 区 域 中 复制 分 组 。 本 书 中 不 介绍 这 个 函数 。 


31.5.2 catchpacketi5/ Zi 


图 31-18 中 ， 过 滤 程 序 接受 了 分 组 后 ， 将 调用 catchpacket， 图 31-19 给 出 了 这 个 函数 。 
bpf.c 


946 static void 

947 catchpacket(d, pkt, pktlen, snaplen, cpfn) 
948 struct bpf d *d; 

949 u char *pkt; 

950 u int pktlen, snaplen; 


951 void (*cpfn) (const void *, void *, u int); 

952 ( 

953 struct bpf har *hp; 

954 int totlen, curlen; 

955 int hdrlen = d-»bd bif-»bif hdrlen; 

956 I" 

957 * Figure out how many bytes to move. If the packet is 
958 * greater or equal to the snapshot length, transfer that 
959 * much. Otherwise, transfer the whole packet (unless 
960 * we hit the buffer size limit). 

961 "Yr 

962 totlen = hdrlen + min(snaplen, pktlen); 

963 if (totlen » d-»bd bufsize) 

964 totlen - d-»bd bufsize; 

965 y" 

966 * Round up the end of the previous packet to the next longword. 
967 er 

968 curlen - BPF WORDALIGN (d-»bd slen); 

969 if (curlen + totlen > d-»bd bufsize) ( 

970 y 
971 * This packet will overflow the storage buffer. 
972 * Rotate the buffers if we can, then wakeup any 
973 * pending reads. 

974 x 

975 lt id-»buüLfbuf == 0) 1 

976 /* 

977 * We haven't completed the previous read yet, 
978 * so drop the packet. 

979 Sy 

980 --d-»bd dcount; 


31-19 catchpacket Á% 
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981 return; 

982 } 

983 ROTATE_BUFFERS (d); 

984 bpf wakeup (d); 

985 curlen s 0; 

986 ) else if (d-»bd immediate) 

987 yen: 

988 * Immediate mode is set. A packet arrived so any 
989 * reads should be woken up. 

990 udi 

991 bpf_wakeup (d); 

992 din 

993 * Append the bpf header. 

994 *r 

995 hp = (struct bpf hdr *) (d-»bd sbuf + curlen); 

996 microtime(&hp-»bh tstamp); 

997 hp-»bh datalen - pktlen; 

998 hp-»bh hdrlen - hdrlen; 

999 p 

1000 * Copy the packet data into the store buffer and update its length. 
1001 Cf 

1002 (*cpfn) (pkt, (u_char *) hp + hdrlen, (hp-»bh caplen = totlen - hdrlen)); 
1003 d-»bd slen = curlen + totlen; 

1004 ) 


bpf.c 
图 31-19 (x) 


946-955 catchpacket 的 参数 包括 : 9， 指 向 BPF 设 备 结 构 的 指针 ; pkt ， 指 问 进 入 分 组 
的 通用 指针 ; pktlen, 分 组 被 接收 时 的 长 度 ; snaplen， 从 分 组 中 保存 下 来 的 字 证 数 ，; 
cpfn， 国 数 指针 ， 把 分 组 从 pkt 中 复制 到 一 块 连续 内 存 中 。 如 果 分 组 已 经 保存 连续 内 存 中 ， 
则 cptn 等 于 bcopy。 如 果 分 组 被 保存 在 mbuf 中 (pkt 指 向 mbuf 链 表 中 的 第 一 个 mbuf， 如 环 回 
驱动 程序 )， 则 cptn 等 于 bpf_mcopy。 
956-964 除了 链 路 层 首 部 和 分 组 ，catchpacket 为 每 个 分 组 添加 bpf_hdr。 从 分 组 中 保 
存 的 字 节 数 等 于 snaplen 和 pkt1len 中 较 小 的 一 个 。 处 理 过 的 分 组 和 bpf_hdar 必 须 能 放 和 人 分 
组 缓存 中 (bd_bufsize 字 证 )。 

1. 分 组 能 否 放 人 缓存 
965-985 curlen 等 于 存储 缓存 中 已 有 的 字 节 数 加 上 所 需 的 填充 字 节 ， 以 保证 下 一 分 组 能 
从 长 字 边 界 处 开始 存放 。 如 果 进 入 分 组 无 法 放 入 剩余 的 缓存 空间 ， 说 明 存 储 缓存 已 满 。 如 果 
空闲 缓存 不 可 用 (如 应 用 进程 正 从 暂 留 缓存 中 读 取 数 据 )， 则 进入 分 组 被 丢弃 。 如 是 空闲 缓存 可 
用 ， 则 调用 ROTATE_BUFFERS 宏 轮转 缓存 ， 并 通过 bpf_wakeup 唤 醒 所 有 等 待 输入 数据 的 应 
用 进程 。 

2. 立即 方式 处 理 
986-991 如果 设备 处 于 立即 方式 ， 则 唤醒 所 有 等 待 进程 以 处 理 进 入 分 组 一 一 内 核 中 没有 分 
组 的 缓存 。 

3. 添加 BPF 首 部 
992-1004 当前 时 间 (microtime)、 分 组 长 度 和 首部 长 度 均 保存 在 bpf_hdr 中 。 调 用 cptf 
所 指 的 函数 ， 把 分 组 复制 到 存储 缓存 ， 并 更 新 存储 缓存 的 长 度 。 因 为 在 把 分 组 从 设备 缓存 传送 
到 某 个 mbuf 链 表 之 前 ，bpf_ tab 已 由 Leread 直 接 调用 ， 接 收 时 间 戳 近似 等 于 实际 的 接收 时 间 。 
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31.5.3 bpfread%ı 


内 核 把 针对 BPF 设 备 的 read 转 交 给 bpfread 处 理 。 通 过 BIOCSRTIMEOUT 命 令 ，BPF 支 
持 限时 读 取 。 这 个 “特性 ”也 可 通过 select 系 统 调 用 来 实现 ， 但 至 少 tcpdump 还 是 采用 了 
BIOCSRTIMEOUT， 而 非 select。 应 用 进程 提供 一 个 读 缓存 ， 能 够 与 设备 的 暂 留 缓存 大 小 相 
匹配 。BICOGBLEN 命 令 返回 缓存 大 小 。 一 般 情 况 下 ， 读 操作 在 存储 缓存 已 满 时 返回 。 内 核 轮 
转 缓存 ， 把 存储 缓存 转 给 暂 留 缓存 ， 后 者 在 read 系 统 调用 时 被 复制 到 应 用 进程 提供 的 读 缓 存 ， 
同时 BPF 设 备 继续 向 存储 缓存 中 存放 进入 分 组 。 图 31-20 给 出 了 bpfread。 


bpf.c 


344 int 

345 bpfread(dev, uio) 
346 dev t dev; 

347 struct uio *uio; 


348 ( 

349 struct bpf d *d = &bpf  dtab[minor (dev)]; 

350 int error; 

351 int S; 

352 fx 

353 * Restrict application to use a buffer the same size as 
354 * as kernel buffers. 

355 * yj 

356 if (uio-»uio resid !- d-»bd bufsize) 

357 return (EINVAL); 

358 S = gplimp(); 

359 M 

360 * If the hold buffer is empty, then do a timed sleep, which 
361 * ends when the timeout expires or when enough packets 
362 * have arrived to fill the store buffer. 

363 "y 

364 while (d-»bd hbuf == 0) ( 

365 if (d-»bd immediate && d-»bd slen !- 0) ( 

366 y^ 

367 * A packet(s) either arrived since the previous 
368 * read or arrived while we were asleep. 

369 * Rotate the buffers and return what's here. 
370 *J 

371 ROTATE BUFFERS (d); 

372 break; 

373 ) 

374 error - tsleep((caddr t) d, PRINET | PCATCH, "bpf", d-»bd rtout); 
375 if (error == EINTR || error == ERESTART) { 

376 splx (s); 

377 return (error); 

378 ) 

379 if (error == EWOULDBLOCK) { 

380 ed 

381 * On a timeout, return what's in the buffer, 
382 * which may be nothing. If there is something 
383 * in the store buffer, we can rotate the buffers. 
384 dii 

385 if (d-»bd hbuf) 


图 31-20 bpfreadtK7 
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386 p^ 

387 * We filled up the buffer in between 
388 * getting the timeout and arriving 
389 * here, so we don't need to rotate. 
390 *»/ 

391 break; 

392 if (d-»bd slen == 0) ( 

393 splxí(s); 

394 return (0); 

395 ) 

396 ROTATE BUFFERS (d); 

397 break; 

398 ) 

399 ) 

400 p* 

401 * At this point, we know we have something in the hold slot. 
402 "rf 

403 splx(s); 

404 [* 

405 * Move data from hold buffer into user space. 
406 * We know the entire buffer is transferred since 
407 * we checked above that the read buffer is bpf bufsize bytes. 
408 xy 

409 error = uiomove(d-»bd hbuf, d-»bd hlen, UIO READ, uio); 
410 s - splimp(); 

213 d-»bd, fbuf = d-»bd hbuf; 

412 d-»bd.hbuf = 0; 

413 d-»bd hlen = 0; 

414 splx(s); 

415 return (error); 

416 ) 


bpf.c 
图 31-20 (3) 


344-357 通过 最 小 设备 号 在 bpf_dtab 中 寻找 相应 的 BPF 设 备 。 如 果 读 缓存 不 能 匹配 BPF 设 
备 缓存 的 大 小 ， 则 返回 EINVAL。 

1. 等 待 数据 
358-364 因为 多 个 应 用 进程 能 够 从 同一 个 BPF 设 备 中 读 取 数据 ， 如 果 有 某 个 进程 已 先 读 取 
了 数据 ，whi1le 循 环 将 强迫 读 操 作 继 续 。 如 果 暂 留 缓存 中 存在 数据 ， 循 环 被 跳 过 。 这 与 两 个 
应 用 进程 通过 两 个 不 同 的 BPF 设 备 过 滤 同 一 个 网 络 接口 的 情况 (见习 题 31.2) 是 不 同 的 。 

2. 立即 方式 
365-373 如 果 设 备 处 于 立即 方式 ， 且 存储 缓存 中 有 数据 ， 则 轮回 缓存 ，while 人 循环 被 终止 。 

3. 无 可 用 的 分 组 
374-384 如 果 设 备 不 处 于 立即 方式 ， 或 者 存储 缓存 中 没有 数据 ， 则 应 用 进程 进入 休眠 状态 ， 
直到 某 个 信号 到 达 ， 读 定时 器 超时 ， 或 者 有 数据 到 达 暂 留 缓存 。 如 果 有 信号 到 达 ， 则 返回 
EINTRZXERESTART, 

记 住 ， 应 用 进程 不 会 见 到 BRESTRRT， 因 为 syscal1 函 数 将 处 理 这 一 错误 ， 且 
不 会 向 应 用 进程 返回 这 一 错误 。 
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4. 查看 暂 留 缓存 
385-391 如 果 定 时 器 超时 ， 且 和 暂 留 缓存 中 存在 数据 ， 则 循环 终止 。 
5. 查看 存储 缓存 


392-399 如果 定 时 器 超时 ， 且 存储 缓存 中 没有 数据 ， 则 read 返 回 0。 应 用 进程 执行 限时 读 
取 时 ， 必 须 考 虑 到 这 种 情况 。 如 果 定 时 器 超时 ， 且 存储 缓存 中 存在 数据 ， 则 把 存储 缓存 转 给 
暂 留 缓存 ， 循 环 终止 。 

如 果 tsleep 返 回 正 常 上 且 存 在 数据 ， 同 时 while 循 环 测试 失败 ， 则 循环 终止 。 

6. 分 组 可 用 
400-416 循环 终止 时 , 暂 留 缓存 中 已 有 数据 。uiomove 从 暂 留 缓存 中 移出 bda_hlen 个 字 玫 ， 
交 给 应 用 进程 。 把 暂 留 缓存 转 给 空 亲 缓存， 清除 缓存 计数 器 ， 国 数 返回 。uiomove 调 用 前 的 
注释 指出 ，uiomove 通 常 能 向 应 用 进程 复制 ba_hlen 字 节 的 数据 ， 因 为 前 面 已 检查 过 读 缓 存 
大 小 ， 确 保 它 大 于 BPF 设 备 缓存 的 最 大 值 ， 即 bda_bufsize。 


31.6 BPF 的 输出 

最 后 ， 我 们 讨论 如 何 向 带 有 BPF 设 备 的 网 络 接口 输出 队列 中 添加 分 组 。 首 先 ， 应 用 进程 必 
须 构 造 完 整 的 数据 链 路 帧 。 对 以 太 网 而 言 , 包括 源 和 目的 主机 的 硬件 地 址 和 数据 帧 类 型 (图 4-8)。 
内 核 在 把 它 放 入 接口 的 输出 队列 前 不 会 修改 链 路 帧 。 
bpEwzrite 函 数 

内 核 把 应 用 进程 的 wzite 系 统 调 用 转 给 图 31-21 给 出 的 bpfwzite 处 理 ， 数 据 帧 被 传 给 
BPF 设 备 。 


bpf.c 
437 int 

438 bpfwrite(dev, uio) 

439 dev t dev; 

440 struct uio *uio; 

441 ( 

442 struct bpf d *d = &bpf dtab[minor(dev)]; 

443 struct ifnet *ifp; 

444 struct mbuf *m; 

445 int error, S; 

446 static struct sockaddr dst; 

447 int datlen; 

448 if (d-»bd bif -- O0) 

449 return (ENXIO); 

450 ifp = d-»bd bif-»bif ifp; 

451 if (uio-»uio resid == 0) 

452 return (0); 

453 error = bpf movein(uio, (int) d-»bd bif-»bif dlt, &m, &dst, &datlen); 
454 if (error) 

455 return (error); 

456 if (datlen > ifp-»if mtu) 

457 return (EMSGSIZE); 

458 S = Splnet(); 

459 error = (*ifp-»if output) (ifp, m, &dst, (struct rtentry *) 0); 
460 splx(s); 


[31-21 bpfwriterR?2X 
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461 /" 
462 * The driver frees the mbuf. 
463 lij 
464 return (error); 
465 ) 
bpf.c 
图 31-21 (£x) 
1. 检查 设备 号 


437-449 通过 最 小 的 设备 号 选择 BPF 设 备 ， 它 必须 已 连接 到 某 个 网 络 接口 。 如 朵 还 没有 ， 
则 返回 ENXIO。 

2. 向 mbuf 链 中 复制 数据 
450-457 如 果 write 给 出 的 写 入 数据 长 度 等 于 0， 则 立即 返回 9。bpf_movein 从 应 用 进程 
复制 数据 到 一 个 mbuf 链 表 ， 并 基于 由 bif_dlt 传 递 的 接口 类 型 计算 去 除了 链 路 层 首 部 后 的 分 
组 长 度 ， 并 在 datlen 中 返回 该 值 。 它 还 在 ast 中 返回 一 个 已 初始 化 过 的 sockaddr 结 构 。 对 
以 太 网 而 言 ， 这 个 地 址 结构 的 类 型 应 该 等 于 AF_UNSPEC, 说 明 mbuf 链 中 保存 了 外 出 数据 帧 的 
数据 链 路 层 首部 。 如 果 分 组 大 于 接口 的 MTU， 则 返回 EMSGSIZE。 

3. 分 组 排队 
458-465 调用 ifnet 结 构 中 指定 的 jf_output 函 数 ， 得 到 的 mbuf 链 被 提交 给 网 络 接口 。 
对 于 以 太 网 ，if output 等 于 ether output, 


31.7 小 结 


本 章 中 ， 我 们 讨论 了 如 何 配置 BPF 设 备 ， 如 何 同 BPF 设 备 递交 进入 数据 帧 ， 及 如 何在 一 个 
BPF 设 备 上 传送 外 出 数据 帧 。 

一 个 网 络 接口 可 以 有 多 个 BPF 设 备 ， 每 个 BPF 设 备 都 有 自己 的 过 滤 程 序 。 存 储 缓 存 和 暂 留 
缓存 最 大 限度 地 减少 了 应 用 进程 为 了 处 理 进 入 数据 帧 而 调用 *ead 的 次 数 。 

本 章 中 只 介绍 了 BPF 的 一 些 主要 特性 。 有 关 BPF 设 备 过 滤 程 序 代码 的 详细 情况 和 其 他 一 些 
特性 ， 感 兴趣 的 读者 请 参阅 源 代 码 和 Net/3 手 册 。 


习题 
31.1 为 什么 在 分 组 存 人 BPF 缓 存 之 前 ， 就 能 在 catchpacket 中 调用 bpf wakeup? 
31.2 图 31-20 中 ， 我们 提 到 可 能 会 有 两 个 进程 在 同一 BPF 设 备 上 等 待 数据 。 图 31-11 中 ， 
我 们 指出 同一 时 间 只 能 有 一 个 应 用 进程 可 以 打开 一 个 特定 的 BPF 设 备 。 为 什么 这 两 
种 说 法 都 正确 呢 ? 
31.3 如果 BIOCSETIF 命 令 中 指定 的 设备 不 支持 BPF， 会 发 生 什么 现象 ? 
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应 用 进程 在 Internet 域 中 创建 一 个 SOCK_RAW 类 型 的 插口 ， 就 可 以 利用 原始 IP 层 。 一 般 有 


下 列 3 种 用 法 : 

1) 应 用 进程 可 利用 原始 插口 发 送 和 接收 ICMP 和 IGMP 报 文 。 

ping 程 序 利用 这 种 类 型 的 插口 ， 发 送 ICMP 回 显 请 求 和 接收 ICMP 回 显 应 答 。 
有 些 选 路 守护 程序 ， 利 用 这 一 特性 跟踪 通常 由 内 核 处 理 的 ICMP 重 定向 报 文 段 。 我 们 在 

19.7 市 中 提 到 ，Net/3 处 理 重 定 同 报 文 段 时 ,会 在 需 重 定 同 的 插口 上 生成 RTM_REDIRECT 消 息 ， 


从 而 无 须 利 用 原始 插口 的 这 一 功能 
需 用 到 ICMP， 不 过 最 好 由 应 用 进程 而 不 是 内 核 完成 相应 处 理 。 


这 个 特性 还 用 于 实现 基于 ICMP 的 协议 ， 如 路 由 通告 和 路 由 请 求 (参见 卷 1 的 9.6 市 )， 它 们 
多 播 路 由 守护 程序 利用 原始 IGMP 插 口 发 送 和 接收 IGMP 报 文 。 
2) 应 用 进程 可 利用 原始 插口 构造 自己 的 IP 首 部 。 路 由 跟踪 程序 利用 这 一 特性 生成 自己 的 


UDP 数据 报 ， 包 括 IP 和 UDP 首部 。 
3) 应 用 进程 可 利用 原始 插口 读 写 内 核 不 支持 的 IP 协 议 的 IP 数 据 报 。 
gated 程 序 利 用 这 一 特性 支持 基于 IP 的 路 由 协议 : EGP, HELLOZHOSPF, 
这 种 类 型 的 原始 插口 还 可 用 于 设计 基于 IP 的 新 的 运输 层 协议 ， 而 无 须 增 加 对 内 核 的 支持 。 


调试 应 用 进程 代码 比 调试 内 核 代码 容易 得 多 。 
本 章 介绍 原始 IP 插 口 的 实现 。 


32.2 代码 介绍 
图 32-1 给 出 的 C 文 件 中 包含 了 5 个 原始 IP 处 理 图 数 。 
图 32-1 本 章 讨 论 的 文件 
图 32-2 给 出 了 5 个 原始 IP 函 数 与 其 他 内 核 函数 间 的 关系 。 
带 阴 影 的 椭圆 表示 我 们 在 本 章 中 将 要 讨论 的 5 个 函数 。 请 注意 ， 原 始 IP 函 数 名 中 的 前 缀 
“rip” 表 示 “ 原 始 IP”(Raw IP)， 而 不 是 “ 选 路 信息 协议 ”(Routing Information Protocol), 后 


者 的 缩写 也 是 RIP。 


32.2.1 全 局 变量 
本 章 中 用 到 4 个 全 局 变量 ， 如 图 32-3 所 示 。 
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getsockopt 


系统 初始 化 插口 接收 缓存 setsockopt 多 种 系统 调用 









domaininit 





图 32-2 原始 IP 函 数 与 其 他 内 核 函数 则 的 关系 


在 输入 中 包含 发送 方 的 翁 地址 


rip recvspace u long 插口 接收 缓存 大 小 默认 值 ，8192 字 节 
rip sendspace u long 揪 口 发 送 缓 存 大 小 默认 值 ，8192 字 节 


图 32-3 本 章 介 绍 的 全 局 变量 







32.2.2 统计 量 
原始 IP 在 ipstat 结 构 (图 8-4) 中 维护 两 个 计数 右 ， 如 图 32-4 所 示 。 


ips noproto 协议 类 型 未 知 或 协议 不 支持 的 分 组 数 
ips rawout 


生成 的 原始 卫 分 组 总 数 
图 32-4 ipstat 结 构 中 维护 的 原始 IP 统 计量 
图 8-6 给 出 了 如 何在 SNMP 中 使 用 ips_noproto 计 数 器 。 图 8-5 给 出 了 这 两 个 计数 器 输出 
值 的 例子 。 


32.3 原始 IP 的 protosw 结 构 


与 所 有 其 他 协议 不 同 ，inet sw 数组 有 多 条 记录 部 可 以 读 写 原始 IP。inet sw 结构 中 有 4 个 
记录 的 插口 类 型 都 等 于 SOCK_ RAW， 但 协议 类 型 则 各 不 相同 : 

e IPPROTO ICMP( 协 议 值 1)，; 

e IPPROTO IGMP( 协 议 值 2)，; 

。IPPROTO RAW( 协 议 值 255)， 












* 原始 IP 通 配 记 录 ( 协 议 值 0)。 
其 中 ICMP 和 IGMP 前 面 已 介绍 过 (图 11-12 和 图 13-9)。4 项 记录 则 的 区 别 总 结 如 下 : 

* 如果 应 用 进程 创建 了 一 个 原始 插口 (SOCK_RAW)， 协 议 值 非 零 (socket 的 第 三 个 参数 )， 
并 且 如 果 协 议 值 等 于 IPPROTO ICMP, IPPROTO IGMP 或 TPPROTO RAW， 则 会 使 用 
对 应 的 protosw 记 录 。 

。 如 果 应 用 进程 创建 了 一 个 原始 播 口 ， 协 议 值 非 零 ， 但 内 核 不 支持 该 协议 ， 
pffindproto 会 返回 协议 值 为 0 的 通 配 记 录 ， 从 而 允许 应 用 进程 处 理 内 核 不 支持 的 IP 协 
议 ， 而 无 须 修 改 内 核 代 码 。 

我 们 在 7.8 市 中 提 到 ，ip_protox 数 组 中 的 所 有 未 知 记录 都 指向 IPPROTO_RAW， 它 的 协 

议 转 换 类 型 如 图 32-5 所 示 。 


pr type SOCK RAW 原始 插口 

pr_domain &inetdomain 属于 Internet 域 的 原始 IP 

pr protocol IPPROTO RAW(255) 出 现在 卫 首 部 的 ip_P 字 段 

pr flags PR ATOMIC|PR ADDR 插口 层 标 志 ， 不 用 于 协议 处 理 
pr input rip input 从 IP 层 接收 报 文 段 

pr output 0 原始 IP 不 使 用 


pr ctlinput 0 原始 IP 不 使 用 
pr ctloutput rip ctlinput 啊 应 应 用 进程 的 管理 请 求 
pr usrreq rip usrreq 响应 应 用 进程 的 通信 请 求 
pr init 原始 IP 不 使 用 
pr fasttimo 原始 IP 不 使 用 
pr slowtimo 原始 IP 不 使 用 
pr drain 原始 IP 不 使 用 
pr sysctl 原始 IP 不 使 用 


[32-5 原始 IP 的 protosw 结 构 

本 章 中 我 们 将 介绍 3 个 以 rip_ 开 头 的 函数 ， 此 外 还 大 致 提 一 下 rip_output 函数 ， 它 没 
有 出 现在 协议 转换 记录 中 ,但 输出 原始 IP 数 据 报时 ，rip_usrreq 将 会 调用 它 。 

第 5 个 原始 IP 函 数 rip_init 只 出 现在 通 配 记录 中 。 和 初始 化 钞 数 只 能 调用 一 次 ， 所 以 它 既 
可 以 出 现在 IPPROTP_RAW 记 录 中 ， 也 可 以 放 在 通 配 记录 中 。 

不 过 ， 图 32-5 中 并 设 有 说 明 其 他 协议 ICMP 和 IGMP)， 在 它们 自己 的 protosw 结 构 中 也 
用 到 了 一 些 原 始 了 王国 数 。 图 32-6 对 4 个 SOCK_RRW 协 议 各 和 目 Pzotosw 结 构 的 相关 成 员 变 量 做 了 
一 个 比较 。 为 了 强调 彼此 间 的 区 别 ， 不 同 之 处 都 用 黑体 字 标 出 。 





SOCK RAW 协议 类 型 


pr input icmp input igmp input rip input rip input 
pr output rip output rip output rip output rip output 


pr ctloutput rip ctloutput rip ctloutput rip ctloutput rip ctloutput 
pr usrreq rip usrreq rip usrreq rip usrreq rip usrreq 

pr init 0 igmp init rip init 

pr. sysctl icmp sysctl 0 0 

pr. fasttimo 0 igmp fasttimo 0 





图 32-6 原始 插口 的 协议 转换 值 的 比较 
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不 同 BSD 版 本 中 ， 原 始 IP 的 实现 各 有 不 同 。ip protox 表 中 ， 协 议 号 等 于 
IPPROTO_RRANW 通 常 都 用 做 通 配 记 录 以 支持 未 知 的 IP 了 协议， 而 协议 号 等 于 0 的 记录 通 
常 作 为 默认 记录 ， 从 而 允许 应 用 进程 读 写 内 核 不 支持 的 卫 协 议 数 据 报 。 

应 用 进程 使 用 IPPROTO RAW 人 记录 ， 最 时 见于 Van Jacobson 开 发 的 Traceout， 这 
是 第 一 个 需要 自己 写 IP 首 部 (改变 TTL 字 段 ) 的 应 用 进程 。 为 了 支持 Traceout， 修 订 了 
4.3BSD 和 Net/1 ， 包 括 人 和 修改 rip output, 在 收 到 协议 号 等 于 IPPROTO RAW 的 数据 
报时 ,假定 应 用 进程 提交 了 一 个 完整 的 IP 数 据 报 ， 包 括 IP 首 部 。 在 Net/2 中 ,， 引 入 了 
IP _HDRINCL 插 口 选 项 ， 简 化 了 IPPROTO RAW 的 用 法 ， 允 许 应 用 进程 利用 通 配 记 
录 发 送 自己 的 IP 首 部 。 


32.4 rip :init 函数 
系统 初始 化 时 ，domaininit 函 数 调用 原始 IP 初 始 化 函数 rip_init (图 32-7)。 


raw, ip.c 
47 void 
48 rip init() 
49 ( 
50 rawinpcb.inp next - rawinpcb.inp prev - &rawinpcb; 
54 } à 
raw_ip.c 


图 32-7 rip init K% 


XA ARITI E — BR EAE PCB B BB (rawinpcb)rB gi AFS gera A, K 
HARNA SEE 

只 要 某 个 socket 系 统 调 用 创建 了 SoCK_RRAW 类 型 的 插口 ， 下 面 将 介绍 的 原始 IP 
PRU RATTRCH 国 数 就 创建 一 个 Internet PCB， 并 插入 rawinpcb 链 表 中 。 


32.5 rip input 函数 


因为 ip_pProtox 数 组 中 保存 的 所 有 关于 未 知 协议 的 记录 都 指 网 IPPROTO_RRANW( 图 7-8)， 
且 后 者 的 pr_input 函 数 指 同 rip_input (图 32-6)， 所 以 只 要 茶 个 接收 IP 数 据 报 的 协议 号 内 
核 无 法 识别 ， 就 会 调用 此 函数 。 但 从 图 32-2 可 看 出 ，ICMP 和 IGMP 都 可 能 调用 rip_input， 
只 要 满足 下 列 条 件 : 

。icmp_input 调 用 rip_input 处 理 所 有 未 知 的 ICMP 报 文 类 型 和 所 有 非 啊 应 的 ICMP 报 文 。 

*igmp input 调用 zip input 处 理 所 有 IGMP 分 组 。 

上 述 两 种 情况 下 ， 调 用 rip_input 的 一 个 原因 是 允许 创建 了 原始 插口 的 应 用 进程 处 理 新 
增 的 ICMP 和 IGMP 报 文 ， 内 核 可 能 不 支持 它们 。 

图 32-8 给 出 了 rip input 畏 数 。 

59 void 


60 rip_input (m) 
61 struct mbuf *m; 





raw. ip.c 


62 1{ 
63 struct ip *ip = mtodí(m, struct ip *); 
64 struct inpcb *inp; 


图 32-8 rip input 函数 
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65 struct socket *1last = 0; 
66 ripsrc.sin addr --ip-»ip src; 
67 for (inp = rawinpcb.inp next; inp !- &rawinpcb; inp = inp-»inp next) ( 
68 if (inp-»inp ip.ip p && inp-»inp ip.ip p !- ip-»ip p) 
69 continue; 
70 if (inp-»inp laddr.s addr && 
T inp-»inp. laddr.s, addr == ip-»ip dst.s addr) 
72 continue; 
73 if (inp-»inp faddr.s addr && 
74 inp-»inp. faddr.s, addr == ip-»ip src.s addr) 
75 continue; 
76 if (last) í 
77 struct mbuf *n; 
78 lif (n «m ocopyim, 0,.(int) M.COPYALL)) ( 
79 if (sbappendaddr(&last-»so rcv, &ripsrc, 
80 n, (struct mbuf *) 0) zs 0) 
81 /* should notify about lost packet */ 
82 m freem(ín); 
83 else 
84 sorwakeup(last); 
85 ) 
86 ) 
87 last - inp-»inp socket; 
88 ) 
89 if (last) ( 
90 if (sbappendaddr(&last-»so rcv, &ripsrc, 
91 m, (struct mbur *) 0) zz 0) 
92 m freem(m); 
93 else 
94 sorwakeup(last); 
95 ) else ( 
96 m freem(m); 
97 ipstat.ips noproto--*; 
98 ipstat.ips delivered--; 
99 ) 
100 ) . 
raw ip.c 
图 32-8 (£x) 
1. 保存 源 卫 地 址 


59-66 IP 数据 报 中 的 源 地 址 被 保存 在 全 局 变量 ripsrc 中 ， 只 要 找到 了 匹配 的 PCB， 
ripsrc 将 作为 参数 传 给 sbappendaddr。 与 UDP 不 同 ,原始 IP 没 有 端口 号 的 概念 ， 因 此 
sockaddr in 结构 中 的 sin_ port 总 等 于 0。 

2. 在 所 有 原始 IP PCB 中 寻找 一 个 或 多 个 匹配 的 记录 
67-88 原始 IP 处 理 PCB 表 的 方式 与 UDP 和 TCP 不 同 。 前面 介绍 过 , 这 两 个 协议 维护 一 个 指针 ， 
总 是 指向 最 近 收 到 的 数据 报 ( 单 报 文 段 缓 存 )， 并 调用 通用 函数 in_pcblookup 寻 找 一 个 最 佳 
匹配 (如 果 收 到 的 数据 报 不 同 于 缓存 中 的 记录 )。 由 于 原始 IP 数 据 报 可 能 发 送 到 多 个 插口 上 ， 所 
以 无 法 使 用 in_pcblookup， 因 此 ， 必 须 遍 历 原始 PCB 链 表 中 的 所 有 PCB 。 这 一 点 类 似 于 
UDP 处 理 广播 数据 报 和 多 播 数 据 报 的 方式 (图 23-26)。 

3. 协议 比较 
68-69 如 果 PCB 中 的 协议 字段 非 0， 并 且 与 卫 首 部 的 协议 字段 不 匹配 ， 则 PCB 被 忽略 。 也 说 
明 协 议 值 等 于 0(socket 的 第 三 个 参数 ) 的 原始 揪 口 能 够 匹配 所 有 收 到 的 原始 IP 数 据 报 。 
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4. EE Sz A Hoe ys LP He H 
70-75 ”如果 PCB 中 的 本 地 地 址 非 0O， 并 且 与 IP 首 部 的 目的 IP 地 址 不 匹配 ， 则 PCB 被 忽略 。 如 
果 PCB 中 的 远 端 地 址 非 0， 并 且 与 卫 首 部 的 产 卫 了 地址 不 匹配 ，PCB 被 忽略 。 

上 述 3 种 测试 说 明 应 用 进程 能 够 创建 一 个 协议 号 等 于 0 的 原始 插口 ， 即 不 绑 定 到 本 地 地 址 ， 
也 不 与 远 端 地 址 建立 连接 ， 可 以 接收 经 rip_input 处 理 的 所 有 数据 报 。 

第 71 和 74 行 代码 都 有 同样 的 错误 : 相等 测试 ， 实 际 应 为 不 相等 测试 。 

5. 递交 接收 数据 报 的 复制 报 文 段 以 备 处 理 
76-94 sbappendaddr 问 应 用 进程 提交 一 个 接收 数据 报 的 复制 报 文 段 。 变 量 last 的 使 用 与 
图 23-26 中 的 用 法 类 似 : 因为 sbappendaddr 把 报 文 段 放 入 适当 队列 中 后 将 释放 所 有 mbuf， 
如 果 有 多 个 进程 接收 数据 报 的 复制 报 文 段 ，z*ip_input 必 须 调用 m_copy 保 存 一 份 复 制 报 文 
段 。 但 如 果 只 有 一 个 应 用 进程 接收 数据 报 ， 则 无 须 复 制 。 

6. 无 法 上 交 的 数据 报 
95-99 如 果 无 法 为 数据 报 找到 相 匹 配 的 插口 ， 则 释放 mbuf， 递 增 ips_noproto， 递 减 
ips delivered。JIP 在 调用 rip_input 之 前 已 经 递增 过 后 一 个 计数 右 ( 图 8-153)。 由 于 数据 
报 实际 上 没有 上 交 给 运输 层 ， 因 此 ， 必 须 递 减 ijps_delivered， 确 保 两 个 SNMP 计 数 生 
ipInDiscards 和 ipInDelivers (图 8-16) 的 正确 性 。 

本 节 开 始 时 我 们 提 到 ，icmp_input 会 为 未 知 报 文 类 型 或 非 响 应 报 文 调用 
rip input, 意味 着 如 果 收 到 ICMP 主 机 不 可 达 报 文 ， 且 rip input 找 不 到 可 匹配 
的 原始 插口 PCB ，ips_noproto 会 递增 。 这 也 说 明 为 什么 图 8-5 中 的 计数 器 值 较 大 。 

在 前 面 对 该 计数 器 的 描述 中 提 到 “未 知 或 不 支持 的 协议 ， 这 种 说 法 是 不 正确 的 。 

如 果 收 到 的 IP 数 据 报 带 有 的 协议 字段 既 无 法 被 内 核 辨 识 ， 也 无 法 被 某 个 应 用 进程 
通过 原始 插口 处 理 ，Net/3 不 会 生成 差错 代码 等 于 2( 协 议 不 可 达 ) 的 ICMP 目 的 不 可 达 
报 文 。RFC 1122 建 议 出 现 此 种 情况 时 应 该 生成 ICMP 差 错 报 文 (参见 习题 32.4)。 


32.06 rip output 函数 


图 32-6 中 ，ICMP、IGMP 和 原始 IP 都 调用 rip_output 实 现 原 始 IP 输 出 。 应 用 程序 调用 
send、sendto、sendmsg、write 和 writev 这 5 个 写 尔 数 之 一 输出 报 文 段 。 如 果 插 口 已 建 
立 连接 ， 就 可 以 任意 调用 上 述 5 个 国 数 ， 尽 管 sendato 和 sendmsg 中 不 能 规定 目的 地 址 。 如 果 
插口 没有 建立 连接 ， 则 只 能 调用 sendto 和 sendmsg， 且 必须 规定 目的 地 址 。 

图 32-9 给 出 了 rip outputrFAZ, 

1. 内 核 填 充 IP 首 部 
119-128 如 果 IP HDRINCR 插 口 选 项 未 定义 ，M PREPEND 为 I P 首 部 分 配 空间 ， 并 填充 IP 首 
部 各 字段 。 此 处 未 填充 的 字段 留待 jp_output 初 始 化 (图 8-22)。 协 议 字 段 等 于 PCB 中 保存 的 
值 ， 并 且 是 图 32-10 中 socket 系 统 调 用 的 第 三 个 参数 。 

TOS 等 于 0，TTL 等 于 255。 内 核 为 原始 IP 插 口 填充 各 首部 字段 时 通常 使 用 这 些 固 定 值 。 这 
与 UDP 和 TCP 不 同 ， 进 程 能 够 通过 插口 选项 设 定 IP_TTL 和 IP_TOS 值 。 

129 进程 通过 IP_OPTIONS 插 口 选项 设 定 的 所 有 IP 选 项 ， 都 通过 opts 变 量 传 给 ip_output 
ERA, 
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raw_ip.c 
105 int 
106 rip output (m, so, dst) ` 
107 struct mbuf *mn; 
108 struct socket *so; 
109 u long dst; 
1X0 { 
111 struct ip *1p; 
112 struct inpcb *inp - sotoinpcb(so); 
113 struct mbuf *opts; 
114 int flags = (so-»so options & SO DONTROUTE) | IP. ALLOWBROADCAST; 
LLS y* 
116 * If the user handed us a complete IP packet, use it. 
l1l7 * Otherwise, allocate an mbuf for a header and fill it in. 
118 wf 
119 if ((inp-»inp flags & INP HDRINCL) == 0) { 
120 M PREPEND(m, sizeof(struct ip), M WAIT); 
121 ip = mtodí(m, struct ip *); 
122 ip-»ip.tos = 0; 
123 lp-»ip.off = 0; 
124 lp-»ip.p = inp-»inp ip.1ip.b;: 
125 ip-»ip len = m-»m pkthdr.len; 
126 ip-»ip src = inp-»inp laddr; 
127 ip-»ip.dst.s addr = dst; 
128 lp-»ip ttl = MAXTTL; 
129 opts = inp-»inp. options; 
130 ) else ( 
134 ip = mtod(m, struct ip *); 
132 1f üp-»1p.id ss 9] 
133 ip-»ip id = htons(ip id-«-); 
134 opts - NULL; : 
135 /* XXX prevent ip output from overwriting header fields */ 
136 flags |= IP RAWOUTPUT; 
137 ipstat.ips rawout-«-; 
138 } 
139 return (ip output(m, opts, &inp-»inp route, flags, inp-»inp moptions)); 
140 ) 


raw, ip.c 
图 32-9 rip output M% 


2. 调用 者 填充 IP 沪 部 : IP HDRINCR 插 口 选项 


130-133 如果 选 用 了 IP_HDRINCR 插 口 选 项 ， 调 用 者 在 数据 报 前 提供 完整 的 IP 首 部 。 如 果 
进程 提供 的 ID 字段 等 于 0， 对 此 类 卫 首 部 需要 做 的 唯一 修改 是 ID 字段 。 卫 数据 报 的 ID 字段 可 以 


等 于 0。 此 处 ，rip_output 对 ID 字段 的 赋值 可 以 简化 进程 的 处 理 ， 直 接 设 ID 字段 等 于 0， 
rip_output 问 内 核 请 求 内 核 变量 ip_id 的 当前 值 ， 作 为 IP 报 文 段 的 ID 值 。 


134-136 令 opts 为 空 ， 忽 略 进程 可 能 通过 IP_OPTIONS 设 定 的 任何 了 选项。 如 果 调 用 者 构 
建 了 目 己 的 IP 首 部 ， 其 中 肯定 已 包括 了 调用 者 希望 加 入 的 IP 选 项 。f1lags 变 量 中 必须 有 


IP_RRANOUTPUT 标 志 ， 告 诉 ipP output 不 要 修改 IP 首 部 。 
137 计数 恬 ips_rawout 递 增 。 执 行 Traceroute 时 ，Traceroute 每 发 送 一 个 变量 就 会 导致 此 变量 加 1。 


rip_output 的 操作 在 不 同 版 本 中 有 所 变化 。 在 Net/3 中 使 用 IP_HDRINCL 播 口 


选项 时 ，rip_output 对 IP 首 部 所 做 的 唯一 修改 就 是 填充 ID 字段 ， 如 果 进 程 将 其 定 
为 0。 因 为 TP RAWOUTPUT 标 志 置 位 ，Net/3 中 的 jp _ output 函 数 不 改 动 IP 首 部 。 但 
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在 Net/2 中 ， 即 使 ITP_HDRINCL 插 口 选项 设 定 时 ， 它 也 会 修改 IP 首 部 中 特定 字段 : IP 
版 本 号 等 于 4， 分 片 偏 移 量 等 于 0， 分 片 标 志 被 清除 。 
32.7 rip usrredg 国 数 


协议 的 用 户 请 求 处 理 函 数 能 够 完成 多 种 操作 。 与 UDP 和 TCP 的 用 户 请 求 处 理 函 数 类 似 ， 
rip_usrreq 是 一 个 很 大 的 switch 语 句 ， 每 个 PRU_xxx 请 求 都 有 一 个 对 应 的 case 子 句 。 
图 32-10 给 出 的 PRU _ATTACH 请 求 来 自 socket 系 统 调用 。 


- raw_ip.c 
194 int 
195 rip usrreq(so, req, m, nam, control) 
196 struct socket *so; 
197 int req; 
198 struct mbuf *m, *nam, *control; 
199 ( 
200 int error s 0; 
201 struct inpcb *inp - sotoinpcb(so); 
202 extern struct socket *ip mrouter; 
203 switch (req) ( 
204 case PRU ATTACH: 
205 if (inp) 
206 panic(*"rip attach"); 
207 if ((so-»so state & SS PRIV) == 0) ( 
208 error = EACCES; 
209 break; 
210 ) 
211 if ((error - soreserve(so, rip sendspace, rip recvspace)) || 
212 (error - in pcballoc(so, &rawinpcb))) 
213 break; 
214 inp = (struct inpcb *) so-»so,. pcb; 
215 lnp-»5inp ip.ip.p s (int) nam; 
216 break; . 
raw_i1p.c 


图 32-10 rip usrreqrKZy: PRU ATTRACH 请 求 


194-206 每 次 socket 国 数 被 调用 时 ， 都 会 创建 新 的 socket 结 构 ， 此 时 还 设 有 指 网 某 个 
Internet PCB 。 | 

1. 确认 超级 用 户 
207-210 只 有 超级 用 户 才 能 创建 原始 插口 ， 这 是 为 了 防止 普通 用 户 向 网 络 发 送 自 己 的 IP 数 
据 报 。 

2. 创建 Internet PCB, 保留 缓存 空间 
211-215 为 输入 和 输出 队列 保留 所 需 空间 ， 调 用 in pcballoc 分 配 新 的 Internet PCB, Y 
加 到 原始 IP PCB 链 表 中 (rawinpcb)， 并 与 socket 结 构建 六 对 应 关系 。rip usrreq 的 nam 
参数 就 是 socket 系 统 调用 的 第 三 个 参数 : 协议 。 它 被 保存 在 PCB 中 ， 因 为 rip_input 要 用 
它 上 交 收 到 的 数据 报 ，rip_output 也 要 把 它 填 入 外 出 数据 报 的 协议 字段 中 (如 果 
IP HDRINCL 未 设 定 )。 ; 

原始 IP 插 口 与 远 端 IP 地 址 建立 的 连接 ， 与 UDP 插 口 和 远 端 IP 地 址 建立 的 连接 相 类 似 。 它 固 
定 了 原始 插口 只 能 接收 来 自 特定 地 址 的 数据 报 ， 如 我 们 在 rip_input 中 所 看 到 的 。 原 始 IP 与 
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UDP 一 样 ， 是 一 个 无 连接 协议 ， 下 面 两 种 情况 下 会 发 送 PRU_DISCONNECT 请 求 : 
1) 关闭 建立 连接 的 原始 插 日 时 ， 在 PRU DETACH 之 前 会 先 发 送 PRU _DISCONNECT 请 
2) 如 果 对 一 个 已 建立 连接 的 原始 插口 调用 connect，soconnect 在 发 送 PRU CONNECT 
请 求 前 会 先 发 送 PRU DISCONNECT 请 求 。 
图 32-11 给 出 了 PRU DISCONNECT, PRU ABORT 和 PRU_DETACH 请 求 。 


raw_ip.c 

2117 case PRU, DISCONNECT: 

218 if ((so-»so state & SS ISCONNECTED) == 0) { 

219 error - ENOTCONN; 

220 break; 

221 ) 

25g /* FALLTHROUGH */ 

223 case PRU ABORT: 

224 soisdisconnected(so); 

225 /* FALLTHROUGH */ 

226 case PRU, DETACH: 

da i if (inp se 5) 

228 panic("rip detach"); 

229 if (so == ip mrouter) 

230 ip mrouter done(); 

231 in pcbdetach(inp); 

232 break; : 
raw ip.c 


图 32-11 rip usrreqtKAZE: PRU DISCONNECT, PRU ABORT 和 PRU_DETACH 请 求 


217-222 如 果 处 理 PRU_DISCONNECT 请 求 的 插口 没有 进入 连接 状态 ， 则 返回 错误 。 
223-225 尽管 禁止 在 一 个 原始 插口 上 发 送 PRU_ABORT 请 求 ， 这 个 case 语 句 实 际 上 是 PRU_ 
DISCONNECT 请 求 处 理 的 延续 。 插 口 转 入 断 开 状 态 。 
226-230 close 系 统 调用 发 送 PRU_ DETACH 请 求 ， 这 个 case 语 句 还 将 结束 PRU DI- 
SCONNECT 请 求 的 处 理 。 如 果 socket 结 构 用 于 多 播 选 路 (ijp_mrouter)， 则 调用 
ip mrouter done 取 消 多 播 选 路 。 一 般 情况 下 ，mrouted (8) 守 护 程序 会 通过 DVMPR_DONE 
插口 选项 取消 多 播 选 路 ， 因 此 ， 这 个 条 件 用 于 防止 nrouted (8) 在 没有 正确 设 定 插口 选项 之 
前 就 异常 终止 了 。 
231 调用 in pcbdetach 释 放 Internet PCB ， 并 从 原始 IP PCB 表 (zawinpcb) 中 删除 。 

通过 PRU_BIND 请 求 ， 可 以 把 原始 IP 揪 口 绑 定 到 某 个 本 地 IP 地 址 上 ， 如 图 32-12 所 示 。 我 
们 在 rip_input 中 指出 ,插口 将 只 能 接收 发 同 该 地 址 的 数据 报 。 
233-250 应 用 进程 向 sockaddr_in 结 构 填 充 本 地 IP 地 址 。 下 列 3 个 条 件 必 须 全 真 ， 否 则 将 
返回 差错 代码 ERDDRNOTRAVRIL : 

1) 至 少 配置 了 一 个 IP 接 口 ; 

2) 地 址 族 应 等 于 AF_INET (或 者 AF_IMPLINK。 这 种 不 一 臻 是 历史 上 人 为 造成 的 )， 

3) 如 果 绑 定 的 人 地址 不 等 于 0.0.0.0， 它 必须 对 应 于 某 个 本 地 接口 。 调 用 者 的 sockaddr_in 
中 的 端口 号 必须 等 于 0， 否 则 ifa_ifwithaddr 将 返回 错误 。 

本 地 IP 地 址 保存 在 PCB 中 。 
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raw_ip.c 

233 case PRU BIND: 

234 ( 

2395 struct sockaddr in *addr - mtod(nam, struct sockaddr in *); 

236 if (nam-»m len !- sizeof(*addr)) { 

237 error - EINVAL; 

238 break; 

239 ) 

240 1f i((iEnet == 0) [I] 

241 ((addr-»sin family !- AF INET) && 

242 (addr-»sin family !- AF IMPLINK)) |l 

243 (addr-»sin, addr.s, addr && 

244 ifa ifwithaddr((struct sockaddr *) addr) -- 0)) ( 

245 error - EADDRNOTAVAIL; 

246 break; 

247 ) 

248 inp-»inp laddr = addr->sin addr; 

249 break; 

250 ) f 
TOU. 1p.C 


图 32-12 rip usrred 畏 数 : PRU BIND 请 求 


进程 还 可 以 在 原始 IP 插 口 与 某 个 特定 远 端 IP 地 址 间 建 立 连接 。 我 们 在 rip_input 中 指出 ， 
这 样 可 以 限制 进程 只 能 接收 源 IP 地 址 等 于 连接 对 端 IP 地 址 的 数据 报 。 进 程 可 以 同时 调用 bind 
flconnect, 或 者 两 者 都 不 调用 ， 这 取决 于 它 希 望 -cip_input 对 接收 数据 报 采 用 的 过 滤 方 
式 。 图 32-13 给 出 了 PRU_CONNECT 请 求 的 处 理 逻 辑 。 
251-270 如 果 调 用 者 的 sockaddr_in 初 始 化 正确 ， 且 至 少 配 置 了 一 个 IP 接 口 ， 则 指定 的 
远 端 地 址 将 存储 在 PCB 中 。 注 意 ， 这 一 处 理 和 和 UDP 插口 建立 与 远 端 IP 地 址 的 连接 有 所 不 同 。 
对 于 UDP，in_pcbconnect 申 请 到 达 远 端 地 址 的 一 条 路 由 ， 并 把 外 出 接口 视 为 本 地 地 址 
(图 22-9)。 对 于 原始 IP， 只 有 远 端 IP 地 址 存储 到 PCB 中 ， 除 非 应 用 进程 还 调用 了 bina， 
zip_input 将 只 比较 远 端 地 址 。 





raw_ip.c 

251 case PRU CONNECT: 

252 ( 

253 struct sockaddr in *addr - mtod(nam, struct sockaddr in *); 

254 if (nam-»m len !- sizeof(*addr)) ( 

255 error - EINVAL; 

256 break; 

257 ) 

258 if (ifnet se 0) ( 

259 error - EADDRNOTAVAIL; 

260 break; 

261 ) 

262 if ((addr-»sin family !- AF. INET) && 

263 (addr-»sin family !- AF IMPLINK)) ( 

264 error - EAFNOSUPPORT; 

265 break; 

266 ) 

267 inp-»inp faddr = addr-»sin, addr; 

268 soisconnected(so); 

269 break; 

270 ) : 
TQUW p.c 





图 32-13 rip _ ustrred 国 数 : PRU_CONNECT 请 求 
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进程 结束 发 送 数 据 后 ， 调 用 shutdown， 生 成 PRU_SHUTDOWN 请 求 ， 尽 管 进程 很 少 为 
原始 IP 插 口 调用 shutdown。 图 32-14 给 出 了 PRU _ CONNECT2 和 PRU _SHUTDOWN 请 求 的 处 


HZ t. 
211 case PRU CONNECT2: 
272 error - EOPNOTSUPP; 
273 break; 
274 A 
275 * Mark the connection as being incapable of further input. 
276 * 7 
2437 case PRU, SHUTDOWN : 
278 socantsendmore (so); 
279 break; 


图 32-14 PRU_CONNECT2 和 PRU SHUTDOWN 请 求 


271-273 原始 IP 插 口 不 支持 PRU CONNECT2 请 求 。 
274-279 socantsendmore 置 位 插口 标志 ， 禁 止 所 有 输出 。 


raw ip.c 


"QW ip.c 


图 23-14 中 RIH T 577 5 ER ICA REUS HEMXHJpr usrreqrüZ&k, AXSPRU SENDIH 
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raw_ip.c 

280 fE 

281 * Ship a packet out. The appropriate raw output 

282 * routine handles any massaging necessary. 

283 HA 

284 case PRU_SEND: 

285 { 

286 u long dst; 

287 if (so-»so state & SS ISCONNECTED) { 

288 if (nam) ( 

289 error - EISCONN; 

290 break; 

291 } 

292 dst = inp->inp_faddr.s_addr; 

293 } else { | 

294 if (nam -- NULL) ( 

295 error - ENOTCONN; 

296 break; 

297 ) 

298 dst = mtod (nam, struct sockaddr in *)-»sin addr.s addr; 

299 ) 

300 error = rip output(m, so, dst); 

301 m - NULL; 

302 break; 

303 ) , 
raw. ip.c 


图 32-15 rip usrtred 国 数 : PRU_SEND 请 求 


280-303 如 果 揪 口 处 于 连接 状态 ， 则 调用 者 不 能 指定 目的 地 址 mam 参 数 )。 如 采 搬 口 未 建立 
连接 ， 则 需要 指明 目的 地 址 。 不 管 哪 种 情况 ， 只 要 条 件 满 足 ，dst 将 等 于 目的 IP 地 址 。 
rip_output 发 送 数 据 报 。 令 mbuf 指 针 m 为 空 ， 防 止 函 数 结束 时 释放 mbuf 链 。 因 为 接口 输出 
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例 程 发 送 数 据 报 之 后 会 释放 mbuf 链 ( 记 住 ,，rip_output 同 ijp_output 提 交 mbuf 链 ， 
ip_output 把 它 加 入 到 接口 的 输出 队列 中 )。 

图 32-16 给 出 了 rip _ usrreqg 的 最 后 一 部 分 代码 。 由 fstat 系 统 调用 生成 的 PRU_SENSE 
请 求 没 有 返回 值 。PRU SOCKADDR 和 PRU PEERADDR 请 求 分 别 由 getsockname 和 和 
getpeername 系 统 调用 生成 。 原 始 IP 插 口 不 支持 其 余 请 求 。 

319-324 Ein setsockaddr 和 in setpeeraddr 能 够 从 PCB 中 读 取 信息 ， 在 nam 参 


数 中 返回 结果 。 

raw_ip.c 

304 case PRU, SENSE: 

305 £^ 

306 * fstat: don't bother with a blocksize. 

307 ui 

308 return (0); 

309 p 

310 * Not supported. 

311 -/ 

312 case PRU, RCVOOB: 

313 case PRU, RCVD: 

314 case PRU, LISTEN: 

315 case PRU. ACCEPT: 

316 case PRU. SENDOOB: 

317 error = EOPNOTSUPP; 

318 break; 

319 case PRU, SOCKADDR: 

320 in, setsockaddr(inp, nam); 

344. break; 

322 case PRU, PEERADDR: 

323 in setpeeraddr(inp, nam); 

324 break; 

325 default: 

326 panic("rip usrreq"); 

327 ) 

328 if (m != NULL) 

329 m freem(m); 

330 return (error); 

331 ) ! 
TQU ip.C 





图 32-16 rip usrreqtKZk: 剩余 的 请 求 


32.8 rip ctloutputif Zl 


setsockoptfdlgetsockoptiAZEZiHrip ctloutput， 它 处 理 一 个 IP 插 口 选项 和 8 
个 用 于 多 播 选 路 的 插口 选项 。 
图 32-17 给 出 了 rip ctloutput 国 数 的 第 一 部 分 。 


raw ip.c 
144 int 
145 rip ctloutput(op, so, level, optname, m) 
146 int Op; 


147 struct socket *so; 


图 32-17 rip usrred 畏 数 : 处 理 IP_HDRINCL 插 口 选项 
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148 int level, optname; 

149 struct mbuf **m; 

150 ( 

157 struct inpcb *inp = sotoinpcb(so); 

152 int error; 

153 if (level !- IPPROTO IP) 

154 return (EINVAL); 

155 switch (optname) ( 

156 case IP HDRINCL: 

197 if (Op == PRCO SETOPT || op == PRCO GETOPT) ( 

158 lf (di s= || "UR uw || (*m)-»m len < sizeof(int)) 
159 return (EINVAL); 

160 if (op == PRCO.SETOPT) 1 

161 if [*mtod(*m, int *)) 

162 inp-»inp flags |= INP. HDRINCL; 
163 else 

164 inp-»inp flags &- "INP  HDRINCL; 

165 (void) m free(*m); 

166 ) else ( 

167 (*m)-»m len - sizeof(int); 

168 *mtod(*m, int *) = inp-»inp flags & INP HDRINCL; 
169 ) 

170 return (0); 

t71 } 

172 break; 





raw_ip.c 


图 32-17 ( 续 ) 


144-172 保存 新 选项 值 或 者 选项 当前 值 的 mbuf 至 少 要 能 容纳 一 个 整数 。 对 于 set sockopt 
系统 调用 ， 如 果 mbuf 中 的 整数 值 非 0， 则 设 定 该 标志 ， 人 否则 清除 它 。 对 于 getsockopt 系 统 
调用 ，mbuf 中 的 返回 值 要 么 等 于 0， 要 么 是 非 0 的 选项 值 。 函 数 返 回 ， 以 避免 switch 语 句 结 
束 时 处 理 其 他 IP 选 项 。 

图 32-18 给 出 了 rip_ctloutput 函 数 的 最 后 一 部 分 ， 处 理 8 个 多 播 选 路 插口 选项 。 


raw_ip.c 

173 case DVMRP INIT: 

174 case DVMRP. DONE: 

175 case DVMRP ADD VIF: 

176 case DVMRP DEL VIF: 

177 case DVMRP. ADD LGRP: 

178 case DVMRP. DEL LGRP: 

179 case DVMRP ADD MRT: 

180 case DVMRP DEL MRT: 

/* shown in Figure 14.9 */ 

188 ) 

189 return (ip ctloutput(op, so, level, optname, m)); 

190 ) : 
raw ip.c 


图 32-18 rip usrreqiK7k: 处 理 多 播 选 路 插口 选项 
173-188 这 8 个 插口 选项 只 对 setsockopt 系 统 调 用 有 效 ， 它 们 由 图 14-9 讨 论 的 
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ip mrouter _ cmd 图 数 处 理 。 
189 MAE WIP OEM, AuikazEIPXEJWHJIP OPTIONS, 则 由 ip_ctloutput 处 理 。 


32.9 小结 


原始 插口 为 IP 主 机 提供 3 种 功能 。 

1) 用 于 发 送 和 接收 ICMP 和 IGMP 报 文 。 

2) 支持 进程 构建 自己 的 IP 首 部 。 

3) 允许 进程 支持 基于 IP 的 其 他 协议 。 

原始 IP 较 为 简单 一 一 只 填充 IP 首 部 的 有 限 几 个 字段 ， 但 它 允 许 进程 提供 自己 的 IP 首 部 。 例 
如 ， 调 试 程序 就 能 发 送 任 何 类 型 的 IP 数 据 报 。 

原始 IP 输 入 提供 了 3 种 处 理 方式 ， 能 够 选择 性 地 接收 进入 的 IP 数 据 报 。 应 用 进程 基于 下 列 
因素 选择 接收 数据 报 : 协议 字段 ， 源 IP 地 址 (由 connect 指 明 );， 目的 IP 地 址 (由 bind 指 明 )。 
进程 可 以 任意 组 合 上 述 3 种 过 滤 条 件 。 


习题 


32.1 假定 IP_HDRINCL 插 口 选项 未 设 定 。 如 果 socket 的 第 三 个 参数 等 于 0， 
rip_output 填 入 IP 首 部 协议 字段 (ip_p) 的 值 是 多 少 ? 如 果 socket 的 第 三 个 参数 
等 于 PPROTO_RAW (255)，rip_output 填 入 该 字段 (ip_p) 的 值 又 古 多 少 ? 

32.2 进程 创建 了 一 个 原始 插口 ， 协 议 值 等 于 IPPROTO_RAW (255)。 进 程 在 这 个 插口 上 
将 收 到 什么 类 型 的 IP 数 据 报 ? 

32.3 ”进程 创建 了 一 个 原始 插口 ， 协 议 值 等 于 0。 进 程 在 这 个 插口 上 将 收 到 什么 类 型 的 IP 
数据 报 ? 

32.4 修改 rip_input， 在 适当 情况 下 发 送 代 码 等 于 2 (协议 不 可 达 ) 的 ICMP 目 的 不 可 达 
报 文 。 请 注意 ， 不 要 为 ip_input 正 处 理 的 ICMP 或 IGMP 数 据 报 生成 一 个 差错 。 

32.5 如 果 进 程 希望 生成 自己 的 卫 数 据 报 ， 自 己 填 充 卫 首部 字段 ， 可 使 用 IP_HDRINCL 选 项 
置 位 的 原始 IP 插 口 ， 或 者 采用 BPF( 第 31 章 )， 这 两 种 方法 的 区 别 是 什么 ? 

32.6 什么 时 候 进程 应 该 读 取 原始 IP 插 口 ? 什么 时 候 读 取 BPF? 
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“我 们 已 走 了 很 长 一 段 路 。 前 面 的 九 章 中 给 出 了 大 量 的 代码 ， 其 中 有 很 多 地 方 值 
得 进一步 商讨 。 如 果 你 第 一 次 阅读 时 没 能 全 部 消化 ， 不 要 紧 因为 那 是 不 可 能 的 。 
即使 最 好 的 代码 也 需要 花 时 间 去 理解 ， 而 且 你 不 可 能 完全 掌握 所 有 细节 ， 除 非 开始 
使 用 并 修改 程序 。 学 习 编 程 的 唯一 方法 是 消化 代码 : dk. MEER. BS 
摘自 《软件 工具 》 的 结束 语 [Kernighan and Plauger 1976] 


“事实 上 ， 在 这 个 RFC 中 ， 你 将 看 到 模块 化 与 性 能 是 不 可 兼 得 的 ， 设 计 者 往往 不 

得 不 在 良好 的 结构 和 优异 的 性 能 间 做 出 痛苦 但 不 可 避免 的 选择 。 

摘自 RFC 817 [Clark 1982] 

本 书 详细 讨论 了 一 个 真正 的 操作 系统 中 非常 有 意义 的 一 部 分 代码 。 书 中 代码 的 各 个 版 本 
是 Unix 内 核 ， 以 及 其 他 许多 非 Unix 系 统 的 一 部 分 。 

我 们 讨论 的 代码 并 不 完美 ， 也 并 非 实现 TCP/IP 协 议 栈 的 唯一 方式 。 过 去 15 年 中 ， 它 经 过 了 许多 
人 的 修改 、 完 善 、 测 试 和 攻击 。 书 中 代码 的 很 大 一 部 分 其 至 不 是 由 加 州 大 学 伯克利 计算 机 系统 研究 
小 组 开发 的 : Stev Deering 编 写 了 多 播 代码 ，Thomas Skibo 加 入 了 对 长 肥 管 道 的 支持 ，Van Jacobson 开 
发 了 部 分 TCP 代 码 ， 等 等 。 代 码 包 含 了 很 多 goto 语 句 ( 准 确 地 说 有 221 个 )、 许 多 大 函数 (如 
tcp_input 和 tcp_output)， 而 且 许 多 编码 风格 也 有 问题 (我 们 试 着 在 讨论 代码 时 指出 它们 )。 尽 管 
如 此 ， 代 码 毫 无 疑问 具有 “事实 上 的 生命 力 ”， 是 添加 新 特性 的 基础 ， 是 衡量 其 他 实现 的 标准 。 

伯 殉 利 联网 代码 设计 用 于 VAX 机 型 ， 当 时 带 4MB 内 存 的 VAX-11/780 已 是 一 个 大 系统 了 。 
因此 ， 许 多 设计 思想 (如 mbuf) 为 了 节省 内 存 而 牺牲 了 处 理性 能 。 如 果 现 在 重新 编写 全 部 代码 ， 
可 以 改变 这 一 点 。 

过 去 几 年 中 ， 越 来 越 强调 网 络 软件 的 处 理性 能 ， 因 为 底层 网 络 速度 正 变 得 越 来 越 快 (如 FDDI 
和 AIM)， 而 且 高 带宽 业务 正 不 断 请 现 (如 声音 和 视频 )。 无 论 何 时 ， 设 计 和 藤 于 操作 系统 内 核 中 的 网 
络 软件 时 ， 人 简洁 性 通常 会 让 位 给 速度 [Clark 1982]。 对 于 任何 实际 实现 ， 这 一 点 都 是 正确 的 。 

[Partridge 1993 ] 和 [Jacobson 1993] 给 出 了 Internet 协 议 的 一 个 实现 ， 主 要 用 于 研究 ， 设 计 
思想 侧重 于 性 能 的 提高 。[Jacobson 1993] 中 代码 的 处 理 速度 是 本 书 中 代码 处 理 速度 的 10~100 
倍 ，BSD 系 统 中 篆 见 的 mbuf 软 件 中 断 和 多 数 协议 分 层 都 被 抛弃 。 如 果 能 在 更 大 的 范围 内 使 用 ， 
不 久 的 将 来 ， 它 将 成 为 衡量 其 他 实现 的 新 标准 。 

1994 年 7 月 ，IPv4 的 下 一 版 本 IPv6 诞 生 了 。 它 采用 了 128 位 (16 字 市 ) 地 址 。IP 和 ICMP 层 有 
了 很 多 变化 ， 但 运输 层 协议 UDP 和 TCP 并 未 改变 (有 人 提出 了 TCPng， 下 一 代 TCP， 但 作者 认 
为 即使 仅仅 升级 IP， 对 于 世界 范围 内 的 厂商 和 Internet 用 户 而 言 ， 已 经 是 一 个 巨大 的 挑战 )。 一 
两 年 后 才 会 出 现 商用 的 实现 ， 再 过 许多 年 ， 终 端 用 户 才 会 把 他 们 的 主机 和 路 由 器 更 新 为 IPv6。 
在 实验 室 中 ， 基 于 本 书 代码 的 IPv6 实 现 计划 于 1995 年 初出 现 。 

为 了 加 深 对 伯克利 网 络 代码 的 了 解 ， 最 好 能 够 得 到 源 人 代码， 并 着 手 做 一 些 修改 。 源 代码 
很 容易 得 到 (附录 B)， 书 中 有 大 量 习 题 建议 了 可 进一步 改进 的 地 方 。 





第 4 章 


附录 A ”部 分 习题 的 解 爸 


SLIP 驱 动 程序 执行 spltty( 图 1-13)， 其 优先 级 必须 低 于 或 等 于 splimp， 且 高 于 
splnet 。 因 此 ，SLIP 驱 动 程序 由 于 中 断 而 被 阻塞 。 


M_EXT 标 志 是 mbuf 自 身 的 一 个 属性 ， 而 不 是 mbuf 中 保存 的 数据 报 的 属性 。 

调用 者 请 求 大 于 100 字 市 (MHLEN) 的 连续 空间 。 

不 可 行 ， 因 为 多 个 mbuf 都 可 指向 徐 (2.9 布 )。 此 外 ， 矮 中 也 没有 用 于 后 向 指针 的 空间 
(习题 2.4)。 

在 <sys/mbuf .h> 定 义 的 宏 MCLALLOC 和 MCLFREE 中 ， 我 们 看 到 引用 计数 器 是 一 个 
名 为 mclrefcnt 的 数组 。 它 在 内 核 初始 化 时 被 分 配 ， 代 码 文件 为 nachdep . c。 


采用 很 大 的 交互 式 队 列 ， 并 不 符合 建立 队列 的 目的 ， 新 的 交互 式 流 量 跟 在 原 有 流量 
之 后 ， 会 造成 附加 时 延 。 
因为 s1 _softc 结 构 都 是 全 局 变量 ， 内 核 初 始 化 时 都 被 置 为 0。 


type 
nlen 
alen 


slen 


sLIP | 


环 回 





4.1 leread 必 须 查看 数据 报 ， 确 认 把 数据 报 提交 给 BPF 之 后 ， 是 否 需 要 将 其 丢弃 。 因 为 


4.2 


5.8 


HRA 2:625 855 


BPF 开 关 会 造成 接口 处 于 一 种 混杂 模式 ， 数 据 报 的 目的 地 有 可 能 是 以 太 网 中 的 其 他 
主机 ，BPF 处 理 完毕 后 ， 必 须 将 其 丢弃 。 

如 果 接 口 没有 加 开关 ， 则 必须 在 ether_input 中 完成 这 一 测试 。 

如 果 测 试 反 过 来 ， 广播 标 志 永 远 不 会 置 位 。 

如 果 第 二 个 if 前 没有 else， 所 有 广播 分 组 都 会 带 上 多 播 标 志 。 


环 回 接口 不 需要 输入 函数 ， 因 为 它 接收 的 所 有 分 组 都 直接 来 日 于 looutput， 后 者 
实际 完成 了 输入 功能 。 

堆栈 分 配 快 于 动态 存储 器 分 配 。 对 BPF 处 理 ， 性 能 是 首要 考虑 的 因素 ， 因 为 对 每 个 
进入 数据 报 都 会 执行 该 代码 。 


缓存 溢出 的 第 一 个 字 节 被 丢弃 ，SC_ERROR 置 位 ，s1Linput 重 设 徐 指 针 ， 从 缓存 起 
始 处 开始 收集 字符 。 因 为 SC_ERROR 置 位 ，slinput 收 到 SLIP END R, AFH 
前 接收 的 数据 帧 。 


如 果 检 验 和 无 效 或 者 卫 首 部 长 度 与 实际 数据 报 长 度 不 匹配 ， 数 据 报 被 丢弃 。 
因为 ifp 指 向 1e_softc 结 构 的 第 一 个 成 员 ， 

SC - (struct le softc*) ifp; 

sc 初始 化 正确 。 


这 和 是 非常 困难 的 。 茶 些 路 由 问 在 开始 丢弃 数据 报时 ， 可 能 会 发 送 ICMP 源 站 抑制 报 文 
段 ， 但 NeV3 实 现 中 的 UDP 插口 丢弃 这 些 报 文 段 (图 23-30)。 应 用 程序 可 以 使 用 与 TCP 
所 采用 的 相同 技术 : 根据 确认 的 数据 报 估算 往返 时 间 ， 确 认可 用 的 带宽 和 时 延 。 


IP 子 网 出 现 之 前 (RFC 950 [Mogul 和 Postel 1985])，IP 地 址 的 网 络 和 主机 部 分 都 以 字 
节 为 界 。in_addr 结 构 的 定义 如 下 : 


struct in_addr ( 


union { 
struct ( u char s.bi, 8.D2, s b3, s bd: ) S un b; 
struct (u short s wl, $w2; ) Sun w; 
u long S addr; 

) S un: 


#define s addr S un.S addr /* should be used for all code */ 


Kdefine s host S 
Kdefine s net S 


un.S.un b.s b2 /* OBSOLETE: host on imp */ 
un.S un b.s 51 /* OBSOLETE: network */ 


#define s_imp S un.S un, w.S w2 /* OBSOLETE: imp */ 


*&define s impno S 
Kdefine s lh S 


h 


un.S.un.b.s. b4 /* OBSOLETE: imp f$ */ 
un.S un, b.s, b3 /* OBSOLETE: logical host */ 


图 A-2 


Internet 地 址 读 写 单位 既 可 以 是 8 bit 字 节 ， 也 可 以 是 16 bit 单 字 ， 或 32 bit 双 字 。 宏 
s_host、s_net、s_imp 等 等 ， 它 们 的 名 字 骨 确 地 反映 出 早期 TCP/IP 网 络 的 结构 。 
子 网 和 超 网 概念 的 引入 ， 猩 汰 了 这 种 以 字 节 和 单字 区 分 的 做 法 。 


6.2 返回 指向 结构 s1_softc[0] 的 指针 。 


856 


6.3 


6.4 


8.6 


8.7 
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接口 输出 畏 数 ， 如 ether_output， 只 有 一 个 指向 接口 ifnet 结 构 的 指针 ， 而 没有 
指 问 ifaddr 的 指针 。 在 arpcom 结 构 ( 最 后 一 次 为 接口 设 定 的 耳 地址) 中 使 用 卫 了 地址 
可 以 避免 从 ifaddr 地 址 链表 中 寻找 所 需 地址。 

只 有 超级 用 户 进程 才能 创建 原始 IP 揪 口 。 通 过 UDP 插口 ， 任 何 用 户 进 程 能 够 查看 接 
口 配置 ， 但 内 核 仍 拥有 超级 用 户 特 权 ， 能 够 修改 接口 地 址 。 

有 3 个 畏 数 循环 处 理 网 络 掩 码 ， 一 次 处 理 一 个 字 节 。 它 们 是 ifa_ifwithnet、 
ifaof ifpforaddr 和 rt maskedcopy。 较 短 的 网 络 掩 码 能 够 提高 这 些 函 数 的 性 能 。 
与 还 端 系统 建 并 Telnet 连 接 。Net/2 系 统 不 应 该 转交 这 些 数据 报 ， 而 其 他 系统 不 会 接 
受到 达 环 回 接口 之 外 的 非 环 回 接口 的 环 回 数据 报 。 


下 列 调用 返回 指向 inetsw[6] 的 指针 : 


pffindproto(PF INET, 0, SOCK RAW); 


EDR. RIA A REMER ER, DIAC T EE S B UR HAE 
因为 数据 报 已 经 损坏 ， 无 法 知道 首部 中 的 地 址 是 否 正确 。 

如 有 果 应 用 程序 选取 的 产地 址 与 指定 的 外 出 接口 的 地 址 不 同 ， 则 无 法 发 送 到 下 一 跳 路 由 
独 。 如 末 下 一 跳 路 由 如 发 现 数 据 报 源 地 址 与 其 到 达 的 子 网 地 址 不 符 ， 则 不 会 执行 下 一 
步 的 转发 操作 。 这 是 尽量 减少 终端 系统 复杂 性 带 来 的 后 果 ，RFC 1122 指 出 了 这 一 问题 。 
新 主机 认为 广播 报 文 来 自 于 某 个 没有 划分 子 网 的 网 络 中 的 主机 ， 并 试图 将 数据 报 发 
回 给 源 主 机 。 网 络 接 口 开 始 广 播 ARP 请 求 ， 由 网 络 请 求 该 广播 地 址 ， 当 然 ， 这 一 请 
A zone A AC RII Pr 

减少 TTL 的 操作 出 现在 小 于 等 于 1 的 测试 之 后 ， 是 为 了 避免 收 到 的 TTL 等 于 0,， 减 1 后 
将 等 于 255， 从 而 引起 操作 差错 。 

如 有 果 两 个 路 由 左 彼 此 认为 对 方 是 茶 个 数据 报 的 下 一 跳 路 由 器 ， 则 形成 环 路 。 除 非 该 
环 路 被 打破 ， 原 始 数据 报 在 两 个 路 由 器 间 来 回 传 递 ， 并 且 每 个 路 由 器 都 向 源 主机 发 
送 ICMP 重 定 癌 报 文 段 ， 如 采 该 主机 与 路 由 匣 处 于 同一 个 网 络 中 。 路 由 更 新 时 ， 不 同 
路 由 器 中 的 路 由 表 暂 时 存在 的 不 一 致 现象 ， 会 造成 这 种 环 路 。 

原始 报 文 段 的 TTL 最 终 减 为 0， 数 据 报 被 丢弃 。 这 是 TITL 存 在 的 一 个 主要 原因 。 


8.9 不 会 检查 4 个 以 太 网 广播 地 址 ， 因 为 它们 不 属于 接收 接口 。 但 应 检查 有 限 的 广播 地 址 ， 说 


8.10 


9.2 


明 带 有 SLIP 链 路 的 系统 采用 有 限 的 广播 地 址 ， 即 使 不 知道 对 端 地 址 ， 也 能 与 对 端 通信 。 
只 对 数据 报 的 第 一 个 分 片 (分 厂 偏 移 量 等 于 0) 生 成 ICMP 差 错 报 文 。 无 论 是 主机 字 节 
序 ， 还 是 网 络 字 节 序 ，0 的 表示 都 相同 ， 因 此 无 须 转换 。 


RFC 1122 建 议 如 果 数 据 报 中 的 选项 彼此 冲突 ， 处 理 方式 由 各 实现 代码 自己 决定 。 
Net/3 能 正确 处 理 第 一 个 源 路 由 选项 ， 但 因为 它 会 更 新 数据 报 首 部 的 ijp_dst， 第 二 
条 源 路 由 处 理 将 出 现 差错 。 

网 络 中 的 主机 也 可 以 用 做 到 达 网 络 其 他 主机 的 中 继 。 如 果 目 的 主机 不 可 直接 到 达 ， 


9.3 


9.4 


9.5 


9.6 
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源 主机 可 在 数据 报 中 加 入 路 由 ， 首 先 到 达 中 继 主 机 ， 接 着 到 达 最 终 的 目的 主机 。 路 
由 器 不 会 丢弃 数据 报 , 因为 目的 地 址 指向 中 继 主 机 ， 后 者 将 处 理 路 由 并 把 数据 报 转 
发 给 最 终 目 的 主机 。 目 的 主机 把 路 由 反 转 ， 同 样 利 用 中 继 主 机 转发 啊 应 。 

采用 与 前 一 个 习题 同样 的 原则 。 我 们 选取 一 个 能 够 同时 与 源 主机 和 目的 主机 通信 的 
中 继 路 由 器 ， 并 构造 源 路 由 ， 穿 过 中 继 路 由 左 到 达 目 的 地 址 。 中 继 路 由 器 必须 与 目 
的 地 址 处 于 同一 个 网 络 ， 通 信 中 不 需要 默认 路 由 。 

如 果 源 路 由 是 仅 有 的 IP 选 项 ，NOP 选 项 使 得 所 有 IP 地 址 以 4 字 市 边界 对 齐 ， 从 而 能 
优化 存储 器 中 的 地 址 读 取 操作 。 这 种 对 齐 技术 也 适用 于 多 个 IP 选 项 ， 如 琳 每 个 IP 选 
项 都 通过 NOP 填 充 ， 保 证 按 4 字 边界 对 齐 。 

不 应 混 清 非 标 准时 间 值 和 标准 时 间 值 ， 最 大 的 标准 时 间 值 等 于 86 399 399(24 x 60 x 60 x 
1000-1)， 需 要 28 bit 才 能 表示 。 由 于 时 间 值 有 32 bit， 从 而 避免 了 高 位 比特 的 混 靖 问题 。 
源 路 由 选项 代码 在 处 理 过 程 中 可 能 会 改变 ip_dst。 保 存 目的 地 址 ， 从 保证 时 间 恰 处 
理 使 用 原始 目的 地 址 。 






第 10 章 
10.2 重 装 后 ， 只 有 第 一 个 分 片 的 选项 上 交 给 运输 层 协 议 。 
10.3 因为 数据 长 度 (204 + 20 ) 大 于 208( 图 2-16)。 
10-11 中 的 m_pullup 把 头 40 字 节 复 制 到 一 个 单独 的 mbuf 中 ， 如 图 2-18 所 示 。 
mbuf () mbuf {} 
NULL 
mbuf() NULL NULL 
40 184 
MT. DATA MT. DATA 
M. PKTHDR M EXT 
id=6 的 MT FTABLE |m pkthdr.len | 224 LEONE veu. ore ud 
bis ptr DESEE d 
NULL 
tup» [i327 Ce] p | cksum next ext_size| 2048 
数据 报 起 妈 
204-45 








接 下 来 的 184 字 节 数 据 报 


2048F 7h $& 
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113 
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平均 每 个 数据 报 收 到 的 分 片 数 等 于 

72786-349 . 

16557 
平均 每 个 输出 数据 报 新 建 的 平均 分 片 数 等 于 

796 084 

26 0 484 
图 10-11 中 ,数据 报 最 初 被 作为 分 片 处 理 。 当 ip_off 左 移 时 , 保留 的 比特 位 被 丢弃 。 
得 到 的 数据 报 被 视 为 分 片 或 一 个 完整 的 数据 报 ， 取 决 于 MF 和 分 片 偏 移 量 的 值 。 


=3.1 





输出 响应 使 用 收 到 请 求 的 接口 的 源 地 址 。 主 机 可 能 无 法 辨识 0.0.0.0 是 一 个 有 效 的 广 
播 地 址 ， 因 此 ， 有 可 能 忽略 请 求 。 推 荐 的 广播 地 址 等 于 255.255.255.255。 

假定 主机 发 送 了 一 个 链 路 层 的 广播 数据 报 ， 其 源 IP 地 址 是 另 一 台 主 机 的 地 址 ， 且 数 
据 报 有 差错 ， 如 内 容 差错 的 选项 。 所 有 主机 都 能 接收 并 检测 出 差错 ， 因 为 这 是 一 个 
链 路 层 的 广播 报 文 ， 而 且 选 项 的 处 理 先 于 最 终 目 的 地 的 检测 。 许 多 发 现 差错 的 主机 
会 向 数据 报 的 源 IP 地 址 发 送 ICMP 报 文 ， 即 使 原 数据 报 属于 链 路 层 广播 。 另 一 

机 将 收 到 大 量 假 的 ICMP 差 错 。 这 就 是 为 什么 不 允许 为 链 路 层 广播 而 发 送 ICMP 差 错 
报 文 。 

第 一 个 例子 中 ， 这 种 重 定向 报 文 不 会 诱骗 主机 向 另 一 个 子 网 中 的 某 个 主机 发 送 报 文 
段 。 这 台 主 机 可 能 被 误 认 为 是 路 由 器 ， 但 它 确 实 记 录 收 到 的 流量 。RFC 1009 规 定 路 
由 器 只 能 向 位 于 同一 个 子 网 的 其 他 路 由 器 发 送 重 定 向 报 文 。 即 使 主机 忽略 了 这 些 要 
求 把 数据 报 转发 到 另 一 个 子 网 的 报 文 段 ， 但 如 果 报 文 段 发 送 者 与 主机 处 于 同一 个 子 
网 中 ， 它 们 就 会 被 接受 。 第 二 个 例子 ， 为 了 防止 出 现 上 述 现象 ， 要 求 主机 只 接受 它 
(错误 地 ) 选 定 的 原始 路 由 器 的 重 定向 报 文 ， 即 假定 这 个 错误 的 路 由 器 是 管理 员 指定 
的 默认 路 由 器。 

通过 向 rip_input 传 递 报 文 段 ， 进 程 级 的 守护 程序 能 够 正确 响应 ， 一 些 依赖 于 这 
种 行为 的 老 系统 能 够 继续 得 到 支持 。 

ICMP 差 错 只 针对 IP 数 据 报 的 第 一 个 分 片 。 因 为 第 一 个 分 片 的 偏 移 量 值 必 等 于 0， 字 
段 的 字 节 表示 顺序 是 无 关 紧 要 的 。 

如 果 收 到 ICMP 请 求 的 接口 还 未 配置 IP 地 址 ， 则 ia 将 为 空 ， 且 不 生成 响应 。 

Net/3 处 理 与 时 间 发 响应 一 起 到 达 的 数据 。 

高 位 比特 被 保留 ， 并 必须 设 为 0。 如 果 它 必须 被 发 送 ， 则 icmp_error 将 丢弃 数据 
报 。 

返回 值 被 丢弃 ， 因 为 Lcmp_send 不 返回 差错 。 更 重要 的 是 ，ICMP 报 文 处 理 过 程 
中 生成 的 差错 将 被 丢弃 ， 以 避免 进入 死 循 环 ， 不 断 生成 差错 报 文 。 


以 太 网 中 ，IP 广 播 地 址 255.255.255.255 转 换 为 以 太 网 的 广播 地 址 ff:ff:ff:ff:ff:ff， 网 
络 中 的 所 有 以 太 网 接口 都 会 接收 这 样 的 数据 帧 。 没 有 运行 IP 软 件 的 系统 必须 主动 接 
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收 并 丢弃 这 种 广播 报 文 。 
数据 报 需 发 送 给 多 播 组 224.0.0.1 中 的 所 有 主机 ， 转 换 后 的 以 太 网 多 播 地 址 为 
01:00:5e:00:00:01， 只 有 明确 要 求 其 接口 接收 卫 多 播报 文 的 系统 才 会 收 到 它 。 
没有 运行 卫 或 者 在 链 路 层 不 兼容 的 系统 不 会 收 到 这 些 报 文 段 ， 因 为 以 太 网 接口 的 硬 
件 已 直接 丢弃 了 这 些 报 文 段 。 

12.2 一 种 替代 方案 是 通过 文本 名 规定 接口 ， 如 同 ifreq 结 构 和 ioct1 命 令 存 取 接口 信息 
采取 的 方式 一 样 。ip_setmoptions 和 ip getmoptions 可 以 调用 ifunit， 取 
代 INADDR TO IFP， 有 寻找 指 问 接口 Lfnet 结 构 的 指针 。 

12.3 多 播 组 高 位 4 bit 通 常 为 1110， 因 此 ， 只 有 5 个 有 意义 的 比特 被 匹配 函数 丢弃 。 

12.4 完整 的 jp_moptions 结 构 必 须 能 放 入 单个 mbuf 中 ， 从 而 限制 结构 最 大 只 能 等 于 
108 字 节 ( 记 住 20 字 节 的 mbuf 首 部 )。IP_MRAX MEMBERSHIPS 可 以 大 一 些 , 但 必须 
小 于 等 于 25(4+1+1+2+(4 x 25)2108), 

12.5 数据 报 重复 ， 在 卫 输 入 队列 中 有 两 份 复制 的 数据 报 。 多 播 应 用 程序 必须 能 识别 并 丢 
弃 重 复 的 数据 报 。 

12.6 


A-4 


12.8 应 用 进程 可 以 创建 第 二 个 插口 ， 并 通过 第 二 个 插口 请 求 ILP_MAX MEMBERSHIPS, 

12.9 为 mbuf 首 部 的 m_flags 成 员 变 量 定义 一 个 新 的 mbuf 标 志 M LOCAL, ip output 处 
理 环 回 数据 报时 置 位 该 标志 ， 从 而 取代 检验 和 。 如 果 该 标 置 位 ，ipintr 就 跳 过 检 
验 和 验证 。SunOS 5.X 提 供 完成 此 功能 的 选项 (ip_local_cksum， 卷 1 的 531 页 )。 

12.10 存在 2” 一 1(8 388 607) 个 独立 的 以 太 网 IP 多 播 地 址 。 记 住 保留 的 IP 组 224.0.0.0。 

12.11 这 个 假设 正确 ， 因 为 jn_addmulti 拒 绝 所 有 新 增 请 求 ， 如 果 接 口 没有 调用 ioctl 函 
数 ， 说 明 如 果 if _ioct1 为 空 ， 则 永 不 会 调用 in delmulti, 

12.12 mbuf 永 远 不 会 被 释放 ， 说 明 ip_getmoptions 包 含 了 一 个 存储 器 泄露 。 
ip _getmoptions 由 ip_ctloutput 调 用 ， 调 用 语句 如 下 : 


ip getmoptions(IP ADD MEMBERSHIP, 0, mp) 


会 引发 ip_getmoptions 中 的 一 个 差错 。 
第 13 章 


13.1 要 求 环 回 接口 啊 应 ICMP 请 求 是 没有 必要 的 ， 因 为 本 地 主机 是 环 回 网 络 中 唯一 的 系 
统 ， 它 已 经 知道 目 己 的 成 员 状 态 。 

13.2 max linkhdr + sizeof (struct ip)+IGMP_MINLEN=16+20+8=44<100 

13.3. 报告 成 员 状 态 时 出 现 随机 延迟 的 主要 原因 是 为 了 最 大 限度 地 减少 出 现在 多 播 网 络 中 
的 报告 数 (理想 情况 下 应 等 于 1)。 一 个 点 到 点 网 络 只 包括 两 个 接口 ， 因 此 ， 无 须 延 迟 
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超出 输出 队列 关于 数据 报 和 字 市 的 限制 。 例 如 ， 在 SLIP 驱 动 程序 中 ， 如 末 输 出 队列 


已 满 或 设备 过 忙 ， 就 会 丢弃 队列 中 所 有 等 待 的 数据 报 ( 图 5-16)。 
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14.1 
14.2 


14.3 


14.4 


15.6 
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16.1 


16.2 


5 个 ， 分 别 对 应 网 络 A~E。 

grplst_membezr 只 被 ip_mforwarda 调 用 ， 但 在 协议 处 理 过 程 中 ， 
ip mforward 又 将 被 jpintr 或 者 ijp_ output 调 用 ，ip output 可 以 由 插口 层 
上 间接 调用 。 缓 存 是 一 个 共享 数据 区 ， 在 更 新 时 必须 加 以 保护 。add_1l1grp 和 
del_lgrp 在 更 新 成 员 列 表 时 ， 通 过 sp1lx 保 护 此 共享 数据 结构 。 
SIOCDELMULTI 命 令 只 影 啊 以 太 网 接口 的 多 播 列表 ， 不 改变 IP 多 播 组 列表 ， 因 此 ， 
接口 仍然 保留 为 组 中 成 员 。 只 要 依旧 是 接口 IP 组 列表 中 的 一 员 ， 接 口 将 继续 接收 属 
于 该 组 的 多 播 数 据 报 。 

只 有 虚 接 口才 能 成 为 多 播 树 的 父 接口 。 如 果 分 组 在 隧道 上 接收 ， 那 么 对 应 的 物理 接 
口 不 可 能 成 为 父 接口 ，ip_mforward 和 去 弃 分 组 。 


插口 可 以 在 分 文 上 共享 ， 或 通过 UNIX 域 插口 传 给 应 用 进程 ([Stevens])。 
accept 返 回 后 ， 结 构 的 sa_len 成 员 大 于 缓存 大 小 。 对 固定 长 度 的 Internet 地 址 而 
言 ， 这 不 是 问题 ， 但 它 有 可 能 用 于 可 变 长 度 的 地 址 ， 例 如 OSI 协议 支持 的 地 址 格式 。 
只 有 so_qlen 不 等 于 0 时 ， 才 会 调用 soqremque。 如 果 soqremque 返 回 一 个 空 指 
针 ， 说 明 插 口 队列 代码 必然 出 现 了 内 核 无 法 处 理 的 问题 。 

复制 的 目的 在 于 结构 锁定 时 仍 可 调用 bzero 清 零 ， 并 可 在 splx 后 接着 调用 
dom dispose 和 sbrealse， 从 而 最 大 限度 地 减少 了 CPU 停 留 在 splimp 的 时 间 ， 
即 网 络 中 断 被 阻塞 的 时 间 。 

宏 sbspace 返 回 0， 从 而 sbappendaddqr 和 sbappendconttrol 畏 数 ( 由 UDP 调用 ) 
将 拒绝 回 队 列 和 添加 新 报 文 段 。TCP 调 用 sbappend， 后 者 假定 调用 者 已 事先 检查 过 
可 用 空间 。 即 使 sbspace 返 回 0，TCP 也 会 调用 sbappend， 但 放 和 接收 队列 中 的 
数据 还 不 能 提交 给 应 用 进程 ， 因 为 SS_CRANTRCVMORE 标 志 阻 止 xead 系 统 调用 返回 
任何 数据 。 


如 果 给 uio 结 构 中 的 uio_resid 赋 值 ， 它 将 成 为 一 个 大 负数 。sosend 拒 绝 带 有 
EINVAL 的 报 文 段 。 


Net/2 不 检查 负 值 ，sosend 起 始 处 的 注释 说 明了 这 个 问题 (图 16-23)。 


不 。 向 斤 中 填充 的 字 节 数 少 于 McLBYTES 只 可 能 出 现在 报 文 段 尾 部 ， 此 时 剩余 的 字 
节 数 小 于 MCLBYTES。 此 时 ，resiad 等 于 0， 和 循环 在 394 行 bzreak 话 名 处 终止 ， 还 未 


16.5 


16.6 


16.7 


16.8 


16.9 
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到 达 测 试 条 件 spce>0。 

应 用 进程 阻 蹇 ， 直 到 缓存 解锁 。 本 例 中 ， 只 有 在 另 一 个 进程 检查 缓存 或 向 协议 层 传 
送 数 据 时 ， 缓 存 才 会 被 锁定 ;而 在 应 用 进程 等 待 缓存 可 用 空间 时 不 会 加 锁 ， 后 者 有 
可 能 等 待 无 限 长 的 时 间 。 

如 采 发 送 缓存 包括 许多 mbuf， 每 个 都 包括 若干 字 刷 的 数据 ， 那 么 当 mbuf 分 配 大 块 
存储 右 时 ，sb_cc 很 可 能 大 大 低 于 sb_hiwat 规 定 的 限制 。 如 果 内 核 不 限制 每 个 组 
存 可 拥有 的 mbuf 的 数量 ， 应 用 进程 就 能 轻易 地 造成 存储 器 枯竭。 

recvit 分 别 由 recvfrom 和 recvmsg 调 用 。 只 有 recvmsg 处 理 控 制 信 息 。 它 把 完 
整 的 msghdr 结 构 ， 包 括 控制 信息 长 度 ， 复制 给 应 用 进程 。 至 于 地 址 信息 ， 
recvmsg 把 namelenp 参 数 设 为 空 ， 因 为 它 可 从 msg_namelen 中 得 到 所 需 长 度 。 
当 recvfrom 调 用 recvit 时 ，namelenp 非 空 ， 因 为 函数 需要 从 *namelenp 中 得 
到 所 需 长 度 。 

MSG EOR 由 soreceive 清 除 ， 因 此 ， 它 不 可 能 在 M EOR mbuf 被 处 理 前 ， 被 
soreceivejh|[s, 

select 检 碍 描述 符 时 ， 实 际 上 存在 一 种 莞 和 争 。 如 果 某 个 选 定 事件 发 生 在 selscan 
查看 描述 符 之 后 ， 但 在 select 调 用 sleep 之 前 ， 该 事件 不 会 被 发 现 ， 应 用 进程 
将 保持 睡眠 状态 ， 直 到 下 一 个 选 定 事件 发 生 。 


简化 在 内 核 和 应 用 进程 间 复 制 数据 的 代码 。 copyin 和 copyout 可 用 于 单个 的 mbuf， 
但 需要 uiomove 处 理 多 个 mbuf。 
代码 工作 正确 ， 因 为 1ingez 结 构 的 第 一 个 成 员 是 所 要 求 的 整数 标志 


个 8 行 的 表格 ， 每 行 对 应 一 种 查找 键 、 路 由 表 键 和 路 由 表 掩 码 中 比特 的 组 合 方 


m- ÅO O mmo 
Bim m A Bm DM DM am gu 
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图 A-5 


标注 为 “2 == 4? ”和 标注 为 “6 & 3” 的 两 栏 ， 值 应 相等 。 第 一 眼看 上 去 ， vid 
不 完全 相同 ， 但 我 们 可 以 略 过 第 3 行 和 第 7 行 ， 因 为 这 两 行 中 路 由 表 比 特等 于 1， 
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TCP/IP:ÉÉR X2: 实现 


在 路 由 表 掩 码 中 的 对 应 比特 也 等 于 1。 构 建 路 由 表 时 ， 键 值 与 掩 码 逻 辑 与 ， 保 证 掩 
码 中 的 等 于 0 每 一 比特 位 ， 键 值 中 的 对 应 比特 位 也 等 于 0。 

可 以 从 另 一 个 角度 理解 图 18-40 中 的 异 或 和 丈 辑 与 操作 ， 异 或 结果 等 于 1 的 条 件 是 查 
找 键 比特 不 同 于 路 由 表 键 值 中 对 应 的 比特 位 。 之 后 的 逻辑 与 操作 忽略 所 有 与 掩 码 中 
等 于 0 的 比特 相对 应 的 比特 。 如 果 结 果 依 然 非 零 ， 则 查找 键 与 路 由 表 键 值 不 匹配 。 
rtentry 结 构 的 大 小 等 于 120 字 市 ， 其 中 包括 两 个 radix_node 结 构 。 每 条 记录 还 
要 求 两 个 sockaddr_in 结 构 (图 18-28)， 有 152 字 节 。 总 数 约 为 3 兆 字 节 。 

因为 rn_b 是 一 个 短 整 数 ， 假 定 短 整数 占 16 bit， 因 此 ， 每 个 键 值 最 多 有 32767 bit 
(4095 字 市 )。 


图 19-15 中 ， 如 果 重 定 问 报 文 创建 了 新 的 路 由 ， 将 置 位 RTF_DYNAMIC 标 志 ; 如果 重 
定 同 报 文 修改 了 现 有 路 由 的 网 关 字段 ， 则 置 位 RTF_MODIFIED 标 志 。 如 果 重 定 问 
报 文 新 建 了 一 条 路 由 ， 之 后 男 一 个 重 定 疝 报 文 又 修改 了 它 ， 则 两 个 标志 都 会 置 位 。 
在 每 个 可 通过 默认 路 由 到 达 的 主机 上 创建 一 条 主机 路 由 。TCP 能 够 对 每 个 主机 维护 
并 更 新 路 由 和 矩阵 (图 27-3)。 

每 个 rt_msghdr 结 构 需 要 76 字 市 。 主 机 路 由 中 包括 还 两 个 sockaddr_in 结 构 ( 目 的 地 
和 网 关 )， 因 此 ， 报 文 段 大 小 为 108 字 市 。 每 条 ARP 记 录 的 报 文 段 为 112 字 市 : 一 个 
sockaddr in 和 一 个 sockaddr dl, 总 长 度 等 于 (15 x 112+20 x 108)HJ38407r- 5, 
一 条 网 络 路 由 ( 非 主 机 路 由 ) 还 需要 男 外 的 8 个 字 市 存放 网 络 掩 码 ( 数 据 大 小 等 于 116 字 
证 ， 而 非 108 字 市 )， 因 此 ， 如 有 果 20 条 路 由 全 部 为 网 络 路 由 ， 总 长 度 等 于 4000 字 市 。 


返回 值 放 入 报 文 段 的 rtm_errno 成 员 变 量 中 (图 20-14)， 同 时 也 作为 write 的 返回 
值 (图 20-22)。 后 者 更 可 靠 ， 因为 前 者 可 能 会 因为 mbuf 短 缺 ， 而 丢弃 啊 应 报 文 段 (图 
20-17), 

对 SOCK_RRW 型 的 插口 ，pffindqpzroto 国 数 (图 7-20) 将 返回 协议 值 等 于 0( 通 配 ) 的 
记录 ， 如 朱 没 有 找到 可 匹配 的 记录 。 


它 基 于 假定 ifnet 结 构 位 于 arpcom 的 开头 ， 事 实 也 是 如 此 (图 3-20)。 

发 送 ICMP 的 回 显 请 求 不 需要 ARP， 因 为 目的 地 址 是 广播 地 址 。 但 ICMP 的 回 显 响应 
一 般 都 是 点 对 点 的 ， 因 此 ， 发 送 者 必须 通过 ARP 确 定 目的 以 太 网 地 址 。 本 地 主机 收 
到 ARP 请 求 时 ，in_azrpinput 应 答 并 为 另 一 主机 创建 一 条 记录 。 

如 果 创 建 了 一 条 新 的 ARP 记 录 ， 图 19-8 中 的 rtrequest 从 源 记 录 中 复制 
rt_gateway 值 ， 本 例 中 为 sockaddr_d1l 结 构 。 图 21-1 中 ， 我 们 看 到 该 记录 的 
sdl alen 值 等 于 0。 l 

Net/3 中 ， 如 有 果 arpresolve 的 调用 者 提供 了 指向 路 由 表 表 项 的 指针 ， 则 不 会 再 调 
用 arplookup， 通 过 rt_gateway 指 针 可 得 到 所 需 的 以 太 网 地 址 (假定 它 还 未 超 
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时 )。 这 样 可 以 避免 通常 意义 上 的 任何 类 型 的 查询 。 第 22 章 中， 我 们 将 看 到 TCP 和 
UDP 在 自己 的 协议 控制 块 中 保存 指 回 路 由 表 的 指针 ，TCP 不 再 需要 搜索 路 由 表 ( 连 接 
的 目的 IP 地 址 不 会 变化 )， 在 目的 地 址 不 变 时 UDP 也 不 需 这 样 做 。 

如 果 ARP 记 录 不 完整 ， 则 它 在 记录 创建 后 0~5 分 钟 超 时 。arpresolve 发 送 ARP 请 
求 时 ， 令 rt_expire 等 于 当前 上 时间。 下 一 次 执行 arpresolve 时 ， 如 果 记 录 还 没 
有 解析 ， 则 删除 它 。 

ether output 返回 EBHOSTUNRERACH， 而 非 EHOSTDOWN ， 从 而 ipP forward? 
发 送 ICMP 主 机 不 可 达 差 错 报 文 。 

图 21-28 中 ， 为 140.252.13.35 创 建 记录 时 ， 值 等 于 当前 时 间 。 它 不 会 改变 。 
140.252.13.33 和 140.252.13.34 记 录 的 值 复制 自 140.252.13.32， 因 为 rtrequest 根 
据 140.252.13.32 复 制 前 两 条 记录 。 之 后 ，arpresolve 发 送 ARP 请 求 时 ， 把 这 两 条 
记录 的 值 更 新 为 当前 时 间 ， 最 后 由 in_arpinput 将 其 更 新 为 收 到 ARP 了 响应 的 时 间 
加 上 20 分 钟 。 

修改 图 21-19 开 始 处 的 arplookup， 第 二 个 参数 永远 等 于 1( 创 建 标志 )。 

在 下 一 秒 的 后 半 秒 发 送 第 一 个 数据 报 。 因 此 ， 第 一 个 和 第 二 个 数据 报 都 会 导致 发 送 
ARP 请 求 ， 间 隅 约 为 300 ms， 因 为 内 核 的 time .tv_sec 变 量 在 这 两 个 数据 报 发 送 
时 的 值 不 同 。 


21.10 每 个 待 发 送 的 数据 报 都 古 一 个 mbuf 链 ，m_nextpkt 指 针 指 向 每 个 链 的 第 一 个 
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mbuf， 用 于 构成 等 待 传输 的 mbuf 链 表 。 


无 限 循环 等 待 某 个 端口 变 为 可 用 ， 假 定 允 许 应 用 进程 打开 足够 多 的 描述 符 ， 绑 定 所 
有 临时 端口 。 

极 少 有 服务 器 支持 此 选项 。[Cheswick 和 Bellovin 1994] 提 到 为 什么 它 可 用 于 实现 防 
KS AREE. 

udb 结 构 初 始 化 为 0， 因 此 ，udab . inp_1potrt 从 0 开始 。 第 一 次 调用 ip_pPpcbbin 
时 ， 它 增加 为 1， 因 为 小 于 1024， 所 以 被 设 定 为 1024。 

一 般 情况 下 ， 调 用 者 把 地 址 族 (sa_family) 设 为 AF_INET， 但 我 们 在 图 22-20 的 注 
释 中 看 到 ， 最 好 不 进行 关于 地 址 族 的 测试 。 调 用 者 设 定 长 度 变 量 (sa_len), 但 我 
们 在 图 15-20 中 看 到 ， 图 数 sockazrgs 将 其 作为 bina 的 第 3 个 参数 ， 对 于 
sockaddr in 结 构 ， 应 等 于 16， 通 第 都 使 用 C 的 sizeof 操 作 符 。 

本 地 IP 地 址 (sin_addr) 可 以 指明 为 通 配 地 址 或 某 个 本 地 IP 地 址 。 本 地 病 口 号 
(sin_port)， 可 以 等 于 0( 告 诉 内 核 选择 一 个 临时 端口 ) 或 非 0， 如 果 应 用 进程 希 
望 指 明 端 口号 。 通 常情 况 下 ，TCP 或 UDP 服 务 絮 指明 一 个 通 配 IP 地 址 ， 端 口号 等 
ra^ 

应 用 进程 可 以 bind 一 个 本 地 广播 地 址 ， 因 为 fa_ifwithaddr( 图 22-22) 的 调用 成 
功 。 尼 被 用 做 在 该 插口 上 发 送 的 IP 数 据 报 的 源 地 址 。C.2 古 中 指出 ，RFC 1122 不 允 
许 这 种 做 法 。 但 试图 绑 定 255.255.255.255 时 会 失败 ， 因 为 fa ifwithaddr 不 接 
受 该 地 址 。 


TCP/IPiÉÉR %2: 实现 


sosendq 把 用 户 数据 放 人 单个 的 mbuf 中 ， 如 有 果 其 长 度 小 于 等 于 100 字 节 ， 放 入 两 个 
mbuf 中 ， 如 果 长 度 小 于 等 于 207 字 节 ;， 否 则 ， 放 入 多 个 mbuf 中 ， 每 个 都 带 有 一 个 徐 。 
此 外 ， 如 果 长 度 小 于 100 字 节 ，sosend 调 用 MH _ ALIGN， 和 希望 能 在 mbuf 起 始 处 为 
协议 首部 保留 空间 。 因 为 uap_output 调 用 M_PREPEND, 下 述 5 种 情况 都 是 可 能 的 : 
(1) 如 果 用 户 数 据 长 度 小 于 等 于 72 字 市 ， 一 个 mbuf 就 可 以 存放 IP 首 部 、UDP 首 部 和 
数据 ，(2) 如 果 长 度 位 于 73 字 节 和 100 字 节 之 间 ，sosend 为 用 户 数据 分 配 一 个 mbuf， 
M_PERPEND 为 IP 和 TCP 首 部 再 分 配 一 个 mbuf; (3) 如 果 长 度 位 于 101 字 市 和 207 字 市 
之 间 ，sosend 为 用 户 数据 分 配 两 个 nbuf，M_PREPEND 为 IP 和 TCP 首 部 再 分 配 一 个 
mbuf; (4) 如 果 长 度 位 于 208 字 节 和 MCLBYTES 之 间 ，sosend 为 用 户 数据 分 配 一 个 
审 禾 的 mbuf，M_PERPEND 为 了 P 和 TCP 首 部 再 分 配 一 个 mbuf; (5) 如 采 长 度 超出 ， 则 
sosend 分 配 足 够 多 的 mbuf 和 禾 ， 以 存放 数据 (最 大 数据 长 度 65507 字 市 ， 需 分 配 64 
个 带 1024 字 市 徐 的 mbuf)，M PERPEND 为 IP 和 和 TCP 首部 再 分 配 一 个 mbuf，。 

IP 选 项 提交 给 ip _ output， 后 者 调用 ip insertoptions 在 输出 IP 数 据 报 中 插入 
IP 选 项 。 它 接着 分 配 一 个 新 的 mbuf， 存 放 带 有 了 IP 选 项 的 IP 首 部 ， 如 果 第 一 个 mbuf 指 
问 一 个 复 (UDP 输 出 不 可 能 出 现 这 种 情况 )， 或 者 第 一 个 mbuf 中 没有 足够 的 剩余 空间 
存放 新 增 选 项 。 上 个 局 题 中 给 出 的 第 一 种 情况 中 ， 和 选项 大 小 将 决定 
ip insertoptions 是 否 分 配 男 一 个 mbuf. 如 果 用 户 数 据 长 度 小 于 100 一 28 一 optlen 
(IP 选 项 占用 的 字 市 数 )， 说 明 mbuf 足 够 存放 IP 首 部 、IP 选 项 、UDP 首 部 和 数据 。 
第 2、3、4 和 5 种 情况 中 ， 第 一 个 mbuf 都 由 M_PREPEND 分 配 ， 只 存放 IP 和 UDP 首部 。 
M PREPEND 调 用 M PREPEND， 接 着 调用 MH ALIGN， 把 28 字 节 的 首部 移 到 mbuf 尾 
部 ， 因 此 ， 第 一 个 mbuf 中 必定 有 空间 存放 最 大 为 40 字 二 的 IP 选 项 。 

不 。 范 数 in_pcbconnect 只 有 在 应 用 程序 调用 connect，,， 或 者 在 一 个 未 连接 的 
UDP 插 口上 发 送 第 一 个 数据 报时 ， 才 会 被 调用 。 因 为 本 地 地 址 是 通 配 地 址 ， 本 地 闻 
口号 等 于 0， 所 以 in_pcbconnect 给 本 地 端口 号 赋 一 个 临时 端口 (通过 调用 
in_pcbbind)， 并 根据 到 达 目 的 地 的 路 由 设 定 本 地 地 址 。 

处 理 器 优选 级 仍 为 splnet 不 变 ， 没 有 还 原 为 初始 值 ， 这 是 代码 的 一 个 差错 。 

不 。in_pcbconnect 不 允许 与 等 于 0 的 端口 建立 连接 。 即 使 应 用 进程 没有 直接 调 
用 connect ， 也 会 间接 地 执行 connect ， 因 此 ，in_ pcbconnect 总 会 被 调用 。 
应 用 程序 必须 调用 ioct1， 命 令 为 SIOCGIEFCONEF ， 返 回 所 有 已 配置 的 了 PP 接口 信息 。 
之 后 ， 在 ioct1 返 回 的 所 有 IP 地 址 和 广播 地 址 中 寻找 接收 数据 报 中 的 目的 地 址 
(也 可 不 用 ioct1l1，19.14 市 中 介绍 的 sysct1 系 统 调用 也 能 够 返回 所 有 配置 接口 
的 信息 )。 

recvit 释 放 珊 有 控制 信息 的 mbuf。 

为 了 断 开 一 个 已 建立 连接 的 UDP 揪 口 ， 调 用 connect ， 传 递 一 个 无 效 的 地 址 参数 ， 
如 0.0.0.0， 端 口号 等 于 0。 因 为 插口 已 经 建立 了 连接，soconnect 调 用 
sodisconnect， 后 者 调用 udp usrreq, 发 送 PRU DISCONNECTiücK, A Xt 
地 址 等 于 0.0.0.0， 远 端 端 口号 等 于 0。 这 样 ， 接 下 来 调用 sendto 了 时 可 以 指明 目的 地 
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址 。 由 于 指明 地 址 无 效 ，sodisconnect 发 送 的 PRU_CONNECT 请 求 失败 。 实 际 上 ，， 
我 们 不 希望 connect 成 功 ， 只 是 要 执行 PRU_DISCONNECT 请 求 ， 而 且 通 过 
connect 来 执行 这 一 请 求 的 做 法 是 唯一 可 行 的 方案 ， 因 为 插口 API 没 有 提供 
disconnect ÁR. 

TJHPBAXTconnectQO)R fio e a PRH: “aA HER t D Et E — 
个 无 效 地 址 ， 如 空地 址 ， 来 断 开 其 当前 连接 。 但 没有 明确 指出 调用 connect 时 ， 
如 果 传 送 的 地 址 无 效 ， 会 返回 一 个 差错 。“ 空 地 址 ”的 含义 也 易 造 成 混淆 ， 它 指 IP 
地 址 0.0.0.0， 而 非 pina 的 第 二 个 参数 的 空 指针 。 

因为 jn_pcbbind 能 够 建立 UDP 插 口 与 远 端 IP 地 址 则 的 临时 连接 ， 情 况 与 应 用 进程 
调用 connect 类 似 : 如 果 某 接口 的 目的 IP 地 址 与 该 接口 的 广播 地 址 对 应 ， 则 从 该 接 
口 发 送 数据 报 。 


23.10 服务 器 必须 设 定 IP_RECVDSTRADDR 播 口 选 项 ， 并 调用 xecvmsg 从 客户 请 求 中 获 


取 目 的 下地 址 。 为 了 成 为 啊 应 报 文 段 中 的 产地 址 ， 必 须 将 其 绑 定 在 插口 上 。 由 于 
一 个 插口 只 能 bina 一 次 ， 服 务 右 每 次 啊 应 时 都 必须 创建 新 的 插口 。 


23.41 注意 ，ip_output( 图 8-22) 中 ，IP 不 修改 调用 者 传递 的 DF 比特 。 需 要 定义 新 的 插 


口 选项 ， 促 使 Ldp_output 在 把 数据 报 传递 给 人 P 之 前 ， 设 定 DF 比 特 。 


23.12 不 。 它 只 被 udp_input 使 用 ， 且 应 为 该 函数 的 局 部 变量 。 
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状态 为 ESTABLISHED 的 连接 总 数 为 126 820。 除 以 发 送 和 接收 的 总 字 市 数 ， 得 到 每 
个 方 和 同上 的 平均 字 市 数 ， 约 为 30 0007£ T., 

tcp_output 中 , 保存 IP 和 和 TCP 首部 的 mbuf 还 有 空间 容纳 链 路 层 首 部 
(max_linkhdr)。 试 图 通过 bcopy 把 IP 和 TCP 首 部 原型 复制 到 mbuf 中 是 行 不 通 的 ， 
因为 有 可 能 会 把 40 字 市 的 首部 分 散在 两 个 mbuf 中 。 尽 管 40 字 市 的 首部 必须 放 入 单个 
mbuf 中 ， 但 链 路 层 首部 不 存在 这 样 的 限制 。 不 过 这 样 做 会 降低 性 能 ， 因 为 后 续 处 理 
不 得 不 为 链 路 层 首部 再 次 分 配 mbuf。 

在 作者 的 bsdi 系 统 中 ， 计 数 右 等 于 16， 其 中 15 个 是 标准 系统 守护 程序 (Telnet、 
Rlogin、FTP， 等 等 )。 而 vangogh .cs.berkeley.edu 系 统 ， 一 个 约 有 20 个 用 户 
的 中 等 规模 的 多 用 户 系 统 ， 计 数 器 约 为 60。 对 于 大 型 的 带 有 150 个 用 户 的 多 用 户 系 
统 (world.std.com)， 则 有 417 个 TCP 妆 点 和 809 个 UDP 妆 点 。 


图 24-5 中 ，2 592 000 秒 (30 天 ) 中 出 现 了 531 285 次 延迟 ACK， 平 均 每 5 秒 钟 有 一 次 延 
述 ACK， 或 者 说 每 25 次 调用 tcp_fasttimo， 才 会 有 一 次 延 人 ACK。 这 说 明 在 代 
码 检 查 所 有 TCP 控 制 块 ， 判 定 延迟 ACK 标 志 是 否 置 位 时 ，96%(25 次 中 有 24 次 ) 的 时 
间 都 未 置 位 。 对 于 习题 24.3 中 给 出 的 大 型 的 多 用 户 系统 ， 意 味 着 需 查看 超过 400 个 
的 TCP 控 制 块 ， 每 秒 钟 查询 5 次 。 

另 一 种 解决 方案 是 ， 在 需要 延迟 ACK 时 ， 设 定 全 局 标志 。 只 有 当 全 局 标志 置 位 时 ， 
才 检 查 控 制 块 列表 。 或 者 为 需要 延迟 ACK 的 控制 块 单独 建立 并 维护 一 个 列表 。 例 如 ， 
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图 13-14 中 的 变量 igmp timers are running, 

这 样 使 得 变量 tcp_keepintvl 绑 定 在 运行 中 的 内 核 上 ， 下 次 调用 
tcp slowtimo 时 ， 内 核 可 以 改变 tcp_maxidle 的 值 。 

t_idle 中 保存 的 实际 上 是 从 最 后 一 次 接收 或 发 送 报 文 段 后 算 起 的 时 间 。 因 为 TCP 
的 输出 必须 被 对 端 确 认 ， 与 收 到 数据 报 文 段 相 同 ， 收 到 ACK 也 将 清 堆 t_idle。 

图 A-6 给 出 代码 的 一 种 可 能 的 重 写 方式 。 


case TCPT 2MSL: 
if (tp-»t state == TCPS TIME WAIT) 
tp = tcp. close (tp); 
else ( 
if (tp-»t idle <= tcp maxidle) 


tp-»t timer[TCPT 2MSL] = tcp keepintvl; 
else 
tp = tcp close(tp); 
) 
break; 





A-6 


如 果 收 到 了 重复 的 ACK，t_idle 等 于 150, 但 被 复位 为 0。FIN_WAIT_2 时 钟 超时 
后 ，t_idle 将 等 于 1048 (1198-150)， 因 此 ， 定 时 右 被 设 定 为 150 个 滴答 。 定 时 兹 
再 次 超时 ，t_idle 应 等 于 1198+150， 导 致 连接 被 关闭 。 重 复 ACK 令 时 间 延 长 ， 直 
到 连接 被 关闭 。 

第 一 次 连接 探测 报 文 段 将 在 1 小 时 后 发 送 。 应 用 进程 设 定 该 选项 上 时， 实际 只 置 位 了 
socket 结 构 中 的 SO_KEEPRALIVE 选 项 。 由 于 设 定 了 该 选项 ， 定 时 纶 将 于 1 小 时 后 
超时 ， 图 25-15 中 的 代码 将 发 送 第 一 次 连接 探测 报 文 段 。 
tcp_rttdf1lt 用 于 为 每 条 TCP 连 接 初 始 化 RTT 估 计 器 的 值 。 如 果 需 要 ， 主 机 可 通 
过 更 改 全 局 变量 ， 改 变 默认 设置 。 如 果 通 过 #define 将 其 定义 为 第 量 ， 则 只 有 通过 重 
新 编译 内 核 文 件 才 能 改变 默认 值 。 


事实 上 ，TCP 并 没有 刻意 计算 从 连接 上 最 后 一 次 发 送 报 文 段 算 起 的 时 间 ， 因 为 连接 
上 的 计时 器 t idle 一 直 在 起 作用 。 

图 25-26 中 ，snqd _ nxt 被 设 定 为 snd una，len 等 于 0。 

如 果 运 行 Net/3 系 统 ， 但 对 端 主 机 却 无 法 处 理 某 个 新 选项 (例如 ， 对 端 拒绝 建立 连接 ， 
即使 被 要 求 忽略 无 法 辨识 的 选项 )。 仙 到 这 种 情况 时 ， 通 过 在 内 核 中 改变 这 个 全 局 
变量 的 值 ， 可 以 禁止 某 一 个 或 两 个 选项 。 

时 间 惟 选项 能 够 在 每 次 收 到 对 新 数据 的 ACK 时 ， 更 新 RTT 估 计 器 值 。 因 此 ， 使 用 时 
间 惟 选项 后 ，RTT 估 计 绒 值 将 被 更 新 16 次 ， 是 不 使 用 该 选项 时 更 新 次 数 的 两 倍 。 注 
意 ， 在 时 刻 217.944 时 ， 收 到 了 对 6145 的 ACK，RTT 佑 计 器 值 被 更 新 ， 但 这 个 新 的 
计算 值 并 不 准确 一 一 或 者 是 在 时 刻 3.740 发 送 的 携带 5633~6144 字 节 的 数据 段 ， 或 者 
是 收 到 的 对 6145 的 ACK， 在 网 络 中 延迟 了 200 秒 。 

这 种 存储 器 引用 时 ， 无 法 确保 2 字 市 的 MSS 值 能 够 正确 地 对 齐 。 
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(该 解决 方案 来 自 Dave Borman) 一 个 数据 段 能 够 携带 的 TCP 数 据 量 的 最 大 值 为 65495 
字 方 ， 即 65535 减 去 IP 和 TCP 首 部 的 最 小 值 (40)。 因 此 ， 紧 急 数 据 偏 移 量 可 取 值 范围 
中 有 39 个 值 是 无 意义 的 : 65496~65535， 包 括 65535。 无 论 何 时 ， 只 要 发 送 方 得 到 
一 个 超过 65495 的 紧急 数据 偏 移 量 ， 则 将 其 替换 为 65535， 并 置 位 URG 标 志 。 从 而 
迫使 接收 方 进 入 紧急 模式 , 并 告知 接收 方 紧急 数据 偏 移 量 所 指向 的 数据 尚未 被 发 送 。 
发 送 方 将 持续 发 送 紧 急 数 据 偏 移 量 等 于 65535 且 URG 标 志 置 位 的 数据 报 文 段 ， 直 到 
紧急 数据 偏 移 量 小 于 等 于 65495， 说明 真正 的 紧急 数据 偏 移 量 的 开始 。 

我 们 提 到 ， 数 据 段 的 传输 是 可 徘 的 ( 重 传 机 制 )， 而 ACK 则 有 可 能 丢失 。RST 报 文 段 
的 传输 同样 也 是 不 可 靠 的 。 如 果 连 接 上 收 到 了 一 个 假 报 文 段 ( 例 如 ， 不 属于 本 连接 
的 报 文 段 ， 或 者 一 个 不 属于 任何 连接 的 报 文 段 )， 则 传送 RST 报 文 段 。 如 果 RST 报 文 
段 被 ip_output 丢 弃 ， 当 对 闪 重 传导 致 发 送 RST 报 文 段 的 数据 报 文 段 时 ， 将 再 次 
生成 RST 报 文 段 。 

应 用 程序 执行 了 8 次 写 入 1024 字 市 的 操作 。 头 4 次 调用 sosend 时 ，tcp_output 被 
调用 ， 报 文 段 被 发 送 。 因 为 这 4 个 报 文 段 都 包含 了 发 送 缓存 中 最 后 一 个 字 市 的 数据 ， 
每 个 报 文 段 的 PSH 标 志 都 置 位 (图 26-25)。 第 二 个 缓存 装 满 后 ， 应 用 进程 进行 下 一 次 
写 操作 ， 调 用 sosend 时 被 挂 起 。 收 到 对 端 通告 窗口 大 小 等 于 0 的 ACK 后 ， 丢 弃 发 
送 缓 存 中 已 被 确认 的 4096 字 的 数据 ， 应 用 进程 被 唤醒 ， 又 连续 执行 了 4 次 写 操作 ， 
发 送 缓存 再 次 被 填 满 。 但 只 有 当 接 收 方 通告 窗口 大 小 不 等 于 0 时 ， 才 能 继续 发 送 数 
据 。 条 件 满足 时 ， 接 下 来 的 4 个 报 文 段 被 发 送 ， 但 只 有 最 后 一 个 报 文 段 的 PSH 标 志 
置 位 ， 因 为 前 3 个 报 文 段 并 未 清空 发 送 缓存 。 

如 来 正在 发 送 的 报 文 段 不 属于 任何 连接 ， 传 给 tcp_respond 的 tp 参数 可 以 是 空 指 
针 。 代 码 只 有 在 指针 为 空 时 ， 才 会 查看 tp， 并 代 之 以 默认 值 。 

tcp output 通 和 常 调用 MGETHDR， 分 配 一 个 仅 能 容纳 IP 和 和 TCP 首部 的 mbuf， 参 见 
图 26-25 和 图 26-26。 在 新 的 mbuf 的 前 部 ， 代 码 只 预 留 了 链 路 层 首 部 
(max_1inkhdr) 大 小 的 空间 。 如 果 使 用 了 IP 选 项 ， 而 且 选 项 的 大 小 超过 了 
max linkhdr, ip _ insertoptions 会 自动 分 配 另 一 个 mbuf。 但 如 果 JIP 选 项 的 
大 小 小 于 等 于 max linkhdr, 则 ip insertoptions 也 会 占用 mbuf 首 部 的 空间 ， 
从 而 导致 ether_output 仅 为 链 路 层 首部 分 配 男 一 个 mbuf( 假 定 以 太 网 输出 )。 

为 了 避免 多 余 的 mbuf， 图 26-25 和 图 26-26 中 的 代码 ， 可 以 在 报 文 段 中 携带 了 王选 项 时 
调用 MH_ALIGN 。 

约 有 80 行 代码 ， 假 定 采 用 了 RFC 1323 中 的 时 间 惟 选项 ， 且 报 文 段 被 计时 。 

宏 MGETHDR 调 用 了 宏 MALLOC， 后 者 可 能 调用 函数 malloc。 团 数 m copy 也 会 
被 调用 ， 但 一 个 完整 大 小 的 报 文 段 可 能 需要 一 个 答 ， 因 此 ， 不 复制 mbuf， 而 是 保 
存 一 个 对 族 的 引用 。m_copy 中 调用 MGET， 可 能 会 导致 对 malloc 的 调用 。 函 数 
bcopy 复 制 模板 ， 而 in _cksum 计 算 TCP 的 检验 和 。 

调用 writev 没 有 区 别 ， 因 为 处 理 逻 辑 由 sosend 实 现 。 因 为 数据 大 小 等 于 150 字 
市 ， 小 于 MINCLSIZE (208)， 所 以 为 头 100 个 字 市 分 配 了 一 个 mbuf。 并 且 因 为 协 
议 支 持 数 据 的 分 段 ，PRU_SEND 请 求 被 发 送 。 接 着 为 剩余 的 50 字 市 再 分 配 一 个 
mbuf， 并 发 送 相 应 的 PRU _SEND 请 求 (对 于 PR _ATOMIC 协 议 ， 如 UDP，writev 只 
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生成 一 条 “记录 ， 即 只 发 送 一 个 PRU_SEND 请 求 。) 
如 果 两 个 缓存 的 长 度 分 别 等 于 200 和 300， 总 长 度 超过 了 MINCLSI2ZE ， 则 分 配 一 个 
mbuf 徐 ， 且 只 发 送 一 次 PRU_SEND 请 求 。TCP 只 生成 一 个 500 字 市 的 报 文 段 。 


表 中 前 6 行 记录 的 差错 ， 都 是 由 于 接收 报 文 段 或 者 定时 器 超时 引起 的 异步 差错 。 通 
过 在 so_error 中 保存 非 零 的 差错 代码 ， 应 用 进程 能 够 在 下 一 次 读 / 写 操作 中 收 到 差 
错 信 息 。 但 如 果 调 用 来 自 tcp_disconnect, 说 明 应 用 进程 调用 了 close， 或 者 
应 用 进程 终止 时 系统 自动 关闭 其 所 拥有 的 描述 符 。 无 论 是 哪 一 种 情况 ， 拉 述 符 被 关 
闭 ， 应 用 进程 不 可 能 再 通过 读 / 写 操作 来 获取 差错 代码 。 此 外 ， 因 为 应 用 进程 必须 
明确 设 定 揪 口 选项 ， 强 迫 RST 置 位 ， 此 时 返回 一 个 差错 代码 并 不 能 回应 用 进程 提供 
有 用 的 信息 。 

假定 它 是 32 bit 的 u long， 最 大 值 小 于 4298 秒 (1.2 小 时 )。 

路 由 表 中 的 统计 数据 由 tcp_close 更 新 ， 但 只 有 当 连 接 进 入 CLOSED 状 态 时 ， 它 才 
会 被 调用 。 因 为 FTP 客 户 终 止 同 对 端 发 送 数据 (执行 主动 关闭 )， 本 地 连接 端 操 进入 
TIME_WAIT 状 态 。 必 须 经 过 2MSL 后 ， 路 由 表 统 计 值 才 会 被 更 新 。 


0. 1. 2H, 

34.9Mb/s。 对 于 更 高 的 速率 ， 连 接 两 端 需要 更 大 的 缓存 。 

通常 ,tcp_adqooption 不 知道 两 个 时 间 惟 值 是 否 按 32 bit 边 界 对 齐 。 图 28-4 中 的 代 
码 ， 在 指定 情况 下 ， 能 够 确认 时 间 惟 值 按 32 bit 边 界 对 齐 ， 从 而 避免 调用 bcopy。 
图 28-4 中 实现 “选项 预测 ”代码 ， 只 能 处 理 系 统 推荐 的 格式 。 如 果 连 接 对 端 未 采用 
系统 推荐 的 格式 ， 会 导致 为 每 个 接收 到 的 报 文 段 调用 tcp_dooptions， 降 低 了 处 
理 速度 。 

如 果 在 每 次 创建 插口 时 ， 而 非 每 次 连接 建立 时 ， 调 用 tcp_template， 则 系统 中 
的 每 个 监听 服务 器 都 会 拥有 一 个 tcp_template， 而 该 结构 可 能 永远 不 会 被 使 用 。 
时 间 玲 时 钟 频率 应 该 在 1 b/ms 和 1 b/s 之 间 (Net/3 采 用 了 2 b/s)。 如 果 采 用 最 高 的 时 钟 频 
率 1 b/ms, 32 bit 的 时 间 惟 将 在 2%/ (24 x 60 x 60 x 1000) 天 ， 即 24.8 天 后 发 生 符号 位 回 绕 。 
如 果 频 率 为 每 500 ms 1 bit, 32 bit 的 时 间 惟 将 在 23 / (24 x 60x 60 x 2) 天 ， 即 12 427 
天 ， 约 34 年 后 才 会 出 现 符号 位 回 统 。 

对 RST 报 文 段 的 处 理应 优先 于 时 间 惟 ， 而 且 ，RST 报 文 段 中 最 好 不 携带 时 间 戳 选项 
(图 26-24 中 的 tcp_input 代 码 确 保 了 这 一 后 )。 

因为 客户 端 状态 为 ESTABLISHED， 处 理 将 在 图 28-24 的 代码 处 结束 。todrop 等 于 
1， 因 为 rcv_nxt 在 收 到 第 一 个 SYN 时 已 递增 过 。SYN 标 志 被 清除 (因为 这 是 一 个 重 
复 报 文 段 )，ti_seq 递 增 ， todrop 减 为 0。 因 为 todrop 和 ti_len 都 等 于 0， 执 行 
图 28-25 起 始 处 的 f 语 句 ， 并 跳 过 下 一 个 if 语 句 ， 直 接 调 用 m_adj。 但 下 一 章 中 介绍 
tcp_input 后 续 代码 时 , 将 谈 到 在 茶 些 情况 下 不 会 调用 tcp_output, 本 题 即 是 一 例 。 
因此 ， 客 户 端 会 不 啊 应 重复 的 SYN/ACKE。 服 务 左 交 超时 后 ， 再 次 发 送 SYN/ACK 
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(图 28-17 中 介绍 了 某 个 被 动 打 开 的 插口 收 到 SYN 时 ， 定 时 器 的 设置 )， 这 个 重 发 的 
SYN/ACK 报 文 段 同 样 被 忽略 。 我 们 现在 讨论 的 其 实 是 图 28-25 代 码 中 的 男 一 个 差错 ， 
图 28-30 中 给 出 的 代码 同样 也 纠正 了 这 一 差错 。 


28.10 客户 发 出 的 SYN 到 达 服 务 器 ， 并 被 交 给 处 于 TIME_WAIT 状 态 的 插口 。 图 28-24 中 
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的 代码 关闭 SYN 标 志 ， 图 28-25 中 的 代码 跳 转 至 Qzopaftezack， 丢 弃 该 报 文 段 ， 
但 生成 一 个 ACK， 确 认 字 段 等 于 rcv_nxt( 图 26-27)。 它 被 称 作 “再 同步 
(resynchronization) ACK” 报 文 段 ， 因 为 其 目的 是 告诉 对 端 本 地 和 希望 接收 的 下 一 序 
号 。 客 户 端 收 到 此 ACK 后 (客户 处 于 SYN_SENT 状 态 )， 发 现 它 的 确认 字段 所 携 融 
的 序号 不 等 于 自己 期 待 得 到 的 序号 后 (图 28-18)， 向 服务 器 发 送 RST 报 文 段 。RST 
报 文 段 的 ACK 标 志 被 清除 ， 且 序号 等 于 再 同步 ACK 报 文 段 中 确认 字段 携带 的 序号 
(图 29-28)。 服 务 右 收 到 此 RST 报 文 段 后 ， 其 TIME_WAIT 状 态 提前 终止 ， 相 应 插口 
被 关闭 (图 28-36)。 客 户 端 6 秒 钟 后 超时 ， 重 传 SYN 报 文 段 。 假 定 监 听 服 务 器 进程 在 
服务 器 主机 上 运转 正常 ， 新 的 连接 将 建立 。 由 于 TIME_WAIT 状 态 的 这 种 防护 作用 ， 
新 连接 建立 时 ， 下 一 个 SYN 报 文 段 携带 的 序号 既 可 以 高 于 前 一 连接 上 最 后 收 到 的 
序号 (图 28-28 中 的 测试 )， 也 可 以 低 于 该 序号 。 


假定 RTT 等 于 2 秒 钟 。 服 务 器 被 动 打开 ， 客 户 端 在 时 刻 0 主 动 打 开 。 服 务 器 在 时 刻 1 
收 到 客户 发 出 的 SYN， 并 做 出 响应 ， 发 送 自己 的 SYN 和 对 客户 SYN 的 ACK。 客 户 端 
在 时 刻 2 收 到 服务 器 的 响应 报 文 段 ， 图 28-20 中 的 代码 调用 soisconnected( 唤 醒 
客户 进程 )， 完 成 主动 打开 过 程 ， 并 向 服务 器 发 送 ACK 响 应 。 服 务 器 在 时 刻 3 收 到 客 
户 的 ACK， 图 29-2 中 的 代码 完成 服务 器 端的 被 动 打 开 过 程 ， 控 制 返回 给 服务 器 进程 。 
一 般 情况 下 ， 客 户 进 程 比 服务 器 进程 提早 1/2 RTT 时 间 得 到 控制 。 

假定 SYN 的 序号 等 于 1000，50 字 布 数据 的 序号 等 于 1001~1050。tcp input 处 理 此 
SYN 报 文 段 时 ， 首 先 执 行 图 28-15 中 的 起 始 case 语 句 ， 令 rcv_nxt 等 于 1001， 接 着 跳 到 
step6。 图 29-22 中 的 代码 调用 cp_reass， 把 数据 放 入 插口 的 重组 队列 中 。 但 数据 
还 不 能 放 入 插口 的 接收 缓存 (图 27-23)， 因 此 ，rcv_nxt 还 是 等 于 1001。 在 调用 
tcp_output 生 成 ACK 啊 应 上 时， rcv nxt (1001) 被 放 入 ACK 报 文 段 的 确认 字段 。 
也 就 是 说 ，SYN 被 确认 ,但 与 之 同时 到 达 的 50 字 节 的 数据 没有 被 确认 。 因 此 ， 客 户 端 
不 得 不 重 发 50 字 市 的 数据 ， 所 以 ， 在 完成 主动 打开 的 SYN 报 文 段 中 携带 数据 是 没有 意 
客户 端的 ACK/FIN 报 文 段 到 达 时 ， 服 务 器 处 于 SYN_RCVD 状 态 ， 因 此 ， 图 29-2 中 
的 tcp_input 代 码 将 结束 对 ACK 的 处 理 。 连 接 转 移 到 ESTABLISHED 状 态 ， 
tcp_reass 把 已 在 重组 队列 中 的 数据 放 入 接收 缓存 ，rcv_nxt 递 增 为 1051。 
tcp_input 继 续 执行 ， 图 29-24 中 的 代码 负责 处 理 FIN 标 志 ， 此 时 TF _ACKNOW 标 志 
置 位 ，rcv nxt 等 于 1052。socantrcvmove 设 定 插口 的 状态 ， 使 服务 器 在 读 取 
50 字 万 的 数据 之 后 ， 得 到 “文件 结束 ”指示 。 服 务 器 的 插口 也 转移 到 
CLOSE_WAIT 状 态 。 调 用 tcp_output， 确 认 客 户 端 的 FIN( 因 为 rcv_nxt 等 于 
1052)。 假 定 服务 器 进程 在 收 到 “文件 结束 ”指示 后 ， 关 闭 基 插口， 服务 器 也 将 向 
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客户 发 送 FIN， 并 等 待 回应 。 

在 这 个 例子 中 ， 这 了 从 客户 端 向 服务 器 传送 50 字 市 的 数据 ， 双 方 需 3 个 来 回 ， 共 发 送 6 
个 报 文 段 。 为 了 减少 所 需 的 报 文 段 数 ， 应 采用 “用 于 交易 的 TCP 扩 展 [Braden 1994] 。 
收 到 服务 右 啊 应 时 ， 客 户 插口 处 于 SYN_SENT 状 态 。 图 28-20 中 的 代码 处 理 该 报 文 
段 ， 连 接 转 移 到 ESTABLISHED 状 态 ， 控 制 跳 转 到 step6 ， 由 图 29-22 中 的 代码 继续 
处 理 数 据 。TCP_RERASS 把 数据 添加 到 插口 的 接收 缓存 ， 并 递增 zcv_nxt。 之 后 ， 
图 29-24 中 的 代码 开始 处 理 FIN， 再 次 递增 zcv_nxt， 连 接 转 移 到 CLOSE_WAIT 状 
态 。 在 调用 tcp_output 时 ，rcv_nxt 同 时 确认 了 SYN、50 字 市 的 数据 和 FIN。 随 
后 的 客户 进程 首先 读 取 50 字 市 的 数据 ， 接 着 是 “文件 结束 ”指示 ， 并 可 能 关闭 其 插 
口 。 客 户 端 连接 进入 LAST_ACK 状 态 ， 加 服务 器 发 送 FIN 报 文 段 ， 并 等 竺 其 啊 应 报 
XE. 

问题 出 在 图 24-16 中 的 tcp outflags[TCPS CLOSING],'Eix4E [TH FIN 标 志 ， 
而 状态 变迁 图 (图 24-15) 并 未 规定 FIN 应 被 重 传 。 解 决 回 题 的 方法 是 ， 从 该 状态 的 
tcp_outflags 中 除去 TH_FIN 标 志 。 这 个 问题 没有 什么 危害 一 一 只 不 过 多 交换 两 
个 报 文 段 而 且 同 时 关闭 或 者 在 关闭 后 紧 接 着 自 连接 的 情况 是 非常 罕见 的 。 
没有 。 系 统 调用 write 返 回 OK， 只 说 明 数 据 已 复制 到 插口 的 缓存 中 。 在 数据 得 到 
对 端 确认 时 ，Net/3 不 再 通知 应 用 进程 。 如 果 需 要 得 到 此 类 信息 ， 应 设计 并 实现 应 
用 级 的 确认 机 制 。 

RFC 1323 的 时 间 惟 选项 ， 造 成 “首部 压缩 ”失效 。 因 为 只 要 时 间 惟 变化 ， 即 TCP 选 
项 发 生 了 改变 ， 报 文 段 发 送 时 就 不 会 被 压缩 。 窗 口 大 小 选项 无 效 ， 因 为 TCP 首 部 中 
值 的 长 度 仍 为 16 bit, 

IP 中 ID 字段 的 取 值 来 自 一 个 全 局 变量 ， 只 要 发 送 一 个 IP 数 据 报 ， 该 变量 递增 一 次 。 
这 种 方式 导致 在 同一 TCP 连 接 上 两 个 连续 TCP 报 文 段 同 的 ID 差 值 大 于 1 的 可 能 性 大 
大 增加 。 一 有 旦 ID 差 值 大 于 1， 图 29-34 中 的 Aipid 字 段 将 被 发 送 ， 增 大 了 压缩 首部 的 大 
小 。 一 个 更 好 的 解决 方案 是 ，TCP 目 己 维护 一 个 计数 器 ， 用 于 ID 的 赋值 。 








是 的 ， 仍 会 发 送 RST 报 文 段 。 应 用 进程 终止 的 处 理 中 包括 关闭 它 打开 的 所 有 拉 述 符 。 
同一 个 函数 (soclose) 最 终 会 被 调用 ， 无 论 是 应 用 进程 明确 地 关闭 了 插口 描述 符 ， 
还 是 隐 舍 地 进行 了 关闭 (首先 被 终止 )。 

不 。 这 个 常量 只 有 在 监听 插口 设 定 SO_LINGER 选 项 ， 且 延 壕 时 间 等 于 0 时 ， 才 会 被 
用 到 。 正 和 常情 况 下 ， 插 口 选项 的 这 种 设 定 方式 会 导致 在 连接 关闭 时 发 送 RST 报 文 段 
(图 30-12)， 但 图 30-2 中 对 于 接收 和 连接 请 求 的 监听 揪 口 ， 把 该 值 从 0 改 为 120( 袜 答 )。 
如 果 这 是 第 一 次 使 用 默认 路 由 ， 则 为 两 次 ; 否则 为 一 次 。 当 创建 插口 时 ， 
in pcballoc 将 Internet PCB 置 为 0， 从 而 将 PCB 结 构 中 的 route 结 构 设 为 0。 发 送 
第 一 个 报 文 段 (SYN) 时 ，tcp_output 调 用 ip_output。 因 为 ro_rt 指 针 为 空 ， 
因此 向 ro_dst 填 充 IP 数 据 报 的 目的 地 址 ， 并 调用 rtalloc。 在 该 连接 的 PCB 中 ， 
route 结 构 的 ro rt 变量 中 保存 默认 路 由 。 当 ijp_output 调 用 ether _ output 了 时 ， 
后 者 检查 路 由 表 中 的 rt_gwroute 变 量 是 否 为 空 。 如 果 是 ， 则 调用 rtalloc1i。 假 
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定 路 由 没有 改变 ， 该 连接 每 次 调用 tcp_output 时 ， 都 会 使 用 保存 的 ro_rt 指 针 ， 
以 避免 多 余 的 路 由 表 查 询 。 


因为 在 bpf_wakeup 调 用 唤醒 任何 沉睡 进程 之 前 ，catchpacket 肯 定 会 结束 。 
打开 BPF 设 备 的 应 用 进程 可 能 调用 fork， 导 致 多 个 应 用 进程 都 有 权 访 问 同一 个 BPF 设 备 。 
只 有 支持 BPF 的 设备 才 会 出 现在 BPF 接 口 表 (bpf_iflist) 中 ， 因 此 ， 如 果 无 法 找 
到 指定 接口 ，bpf_setif 将 返回 ENXIO 。 


在 第 一 个 例子 中 等 于 0， 第 二 个 例子 中 等 于 255。 这 些 值 都 是 RFC 1700 [Reynolds 和 
Postel 1994] 中 的 保留 值 ， 不 应 出 现在 数据 报 中 。 也 就 是 说 ， 如 果菜 个 插口 创建 时 的 
协议 号 设 定 为 TPPROTO _RAW， 则 必须 设 定 其 IP_HDRINCL 插 口 选项 ， 且 写 入 该 插 
口 的 数据 报 必须 拥有 一 个 有 效 的 协议 值 。 

因为 IP 协 议 值 255 是 保留 值 ， 不 会 出 现在 网 络 中 传送 的 数据 报 中 。 但 这 又 是 一 个 非 
零 的 协议 值 ，rip_input 的 3 项 测试 中 的 第 一 项 测试 将 忽略 所 有 协议 值 不 等 于 255 
的 数据 报 。 因 此 ， 应 用 进程 无 法 在 该 插口 上 收 到 任何 数据 报 。 

即使 该 协议 值 是 一 个 保留 值 ， 不 会 出 现在 网 络 中 传送 的 数据 报 中 , 但 rip_input 
的 3 项 测试 中 的 第 一 项 测试 保证 此 类 型 的 插口 能 够 接收 任何 协议 类 型 的 数据 报 。 如 
果 应 用 进程 调用 了 connect 或 者 pind，,， 或 者 两 者 都 调用 ， 对 于 此 种 原始 插口 而 言 ， 
对 输入 的 唯一 限制 是 IP 报 的 源 地 址 和 目的 地 址 。 

因为 ip_protox 数 组 (图 7-22) 保 存 了 有 关内 核 所 能 支持 的 协议 类 型 的 信息 ， 只 有 在 
该 协议 既 没 有 相关 的 原始 监听 插口 ， 而 且 指 针 ijnetsw[ip_protox[ip- 
»ip pll.pr input^&Trip inputHf, 才 会 生成 ICMP 差 错 报告 。 

两 种 情况 下 ， 应 用 进程 都 必须 自己 构造 卫 首 部 ， 以 及 其 后 的 内 容 (UDP 报 文 段 ，TCP 
报 文 段 或 任何 其 他 的 报 文 段 )。 对 于 原始 IP 播 口 ， 输 出 时 同样 调用 senato， 通 过 
Internet 揪 口 地 址 结构 指明 目的 了 P 了 地址 。 调 用 ip_output， 并 依据 给 定 的 目的 IP 地 
址 执行 正常 的 IP 选 路 。 

BPF 要 求 应 用 进程 提供 完整 的 数据 链 路 层 首 部 ， 例 如 以 太 网 首部 。 输 出 时 ， 需 调用 
write， 因 为 无 法 指明 目的 地 址 。 数 据 分 组 被 直接 交 给 接口 输出 国 数 ， 跳 过 
ip output 国 数 ( 图 31-20)。 应 用 进程 通过 BIOCSETIE ioctl (图 31-16) 选 择 外 
出 接口 。 因 为 未 执行 卫 选 路 ， 数 据 帧 只 能 发 给 是 直接 相连 的 网 络 上 的 另 一 个 主机 
(除非 应 用 进程 重复 IP 选 路 函数 ， 并 将 数据 帧 发 给 直接 相 联网 络 上 的 某 个 路 由 右 ， 
由 路 由 器 根据 目的 IP 地 址 完成 转发 )。 

原始 IP 插 口 只 能 接收 具有 内 核 不 处 理 的 协议 类 型 的 数据 报 ， 例 如 ， 应 用 进程 无 法 在 
原始 插口 上 接收 TCP 报 文 段 或 UDP 报 文 段 。 

BPEF 能 够 接收 到 达 指 定 接口 的 所 有 数据 帧 ， 无 论 它 们 是 否 是 IP 数 据 报 。 
BIOCPROMISC ioct1 使 接口 处 于 一 种 混杂 状态 ， 甚 至 能 够 接收 不 是 发 给 本 主机 
的 数据 报 。 


附录 B 源 代码 的 获取 


URL. 统一 资源 定位 符 
本 附录 列 出 源 代 码 所 在 的 网 址 和 下 载 方 式 。 例 如 ， 第 见 的 “匿名 FTP” 地 址 表示 如 下 : 


ftp://ftp.cdrom.com/pub/bsd-sources/4.4BSD-Lite.tar.gz 
即 主 机 为 ftp .cdqrom.com。 通 过 匿名 FTP 客 户 登 录 后 ， 从 目录 pub/bsd-sources 下 载 文 
件 4.4BSD-Lite.tar.gz。 后 级 .tar 说 明文 件 以 标准 的 tar(1) 格 式 存储 ，.gz 说 明文 件 由 
GNU gzip (1) 程 序 压缩 。 


4.4BSD-Lite 


有 多 种 方式 可 得 到 4.4BSD-Lite 的 正式 版 代码 。 完 整 的 4.4BSD-Lite 正 式 版 代码 可 通过 
Walnut Creek CD-ROM 公 司 得 到 ， 网 址 为 


ftp://ftp.cdrom.com/pub/bsd-sources/4.4BSD-Lite.tar.gz 


或 者 直接 得 到 其 光碟 版 。 联 系 电话 为 18007869907 或 +1510 674 0783, 
O'Reilly & Associates 出 版 的 CD-ROM， 包 括 全 套 的 4.4BSD 手 册 和 4.4BSD-Lite 正 式 版 代 
码 。 联 系 电 话 为 1 800 889 8989 或 者 +1 707 829 0515, 


运行 4.4BSD-Lite 网 络 软 件 的 操作 系统 


4.4BSD-Lite 正 式 版 不 是 一 个 完整 的 操作 系统 。 为 了 测试 本 书 中 介绍 的 网 络 软 件 ， 需 要 内 
置 4.4BSD-Lite 正 式 版 的 操作 系统 ， 或 者 支持 4.4BSD-Lite 的 操作 系统 。 

作者 使 用 的 操作 系统 是 Berkeley Software Design Inc. 生 产 的 商用 系统 ， 联 系 电话 为 1 800 
ITS BSD8, +1 719 260 8114， 或 者 ijnfo@bsdi .com。 

还 有 些 免费 的 操作 系统 ， 已 内 置 了 4.4BSD-Lite， 如 NetBSD、386BSD 和 FreeBSd。 详 情 
请 见 Walnut Creek CD-ROM(ftp .cdrom.com) 或 者 comp .os .386bsd Usenet 新 闻 组 。 


RFC 


所 有 RFC 都 是 免费 的 ， 通 过 电子 邮件 或 匿名 FTP 服 务 如 可 从 因特网 上 得 到 所 需 文档 。 向 下 
述 地 址 发 送 电子 邮件 : 

To: rfc-infoQGISI.EDU. 

Subject: getting rfcs 

help: ways to get rfcs 


回复 邮件 中 会 列 出 通过 电子 邮件 或 匿名 FTP 服 务 器 获取 REFC 不 同方 法 的 详细 说 明 。 
记 住 ， 首 先 应 先 下 载 最 新 的 RFC 索引 ， 从 中 查找 所 需 的 RFC， 确 认 所 需 的 RFC 没 有 被 新 
的 RFC 更 新 或 取代 。 
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GNU 软 件 


利用 GNU Indent 程 序 对 本 书 出 现 的 所 有 源 代码 进行 格式 调整 ， 并 利用 GNU Gzip 程序 对 文 
件 做 了 压缩 。 这 些 程序 可 在 下 列 站 点 找到 


ftp://prep.ai.mit.edu/pub/gnu/indent-1.9.1.tar.gz 
ftp://prep.ai.mit.edu/pub/gnu/gzip-1.2.2.tar 


文件 名 中 的 数字 随 版 本 的 不 同 而 不 同 。 此 外 还 有 用 于 其 他 操作 系统 的 Gzip 程序 ， 如 MS-DOS。 
因特网 上 还 有 许多 其 他 站 点 也 提供 GNU 资 源 ，prep .ai.mit.edu 主 机 的 问候 词 中 列 出 
了 这 些 站 点 的 名 称 。 


PPP 软 件 
有 些 PPP 实 现 是 免费 的 。comp .protocols .ppp FAQ 的 第 5 部 分 提供 了 很 多 有 价值 的 信 


http://cs.uni-bonn.de/ppp/part5.html 


mroutedZX (4 
mrouted 软 件 的 最 新 版 本 和 其 他 多 播 应 用 程序 可 从 Xerox Palo Alto 研 究 中 心 的 站 点 得 到 : 


ftp://parcftp.xerox.com/pub/net-research/ 


ISODE 软 件 


ISODE 软 件 包 中 的 SNMP 代 理 实 现 与 NeV3 兼 容 。 详 细 信 息 参 见 ISODE 论 坛 的 网 站 : 


http://www.isode.com/ 


附录 C RFC 1122 的 有 关内 容 


本 附录 总 结 了 Net3 实 现 与 RFC 1122[Braden 1989al] 建 议 的 兼容 性 。REFC 1122 分 4 类 给 出 了 


。TCP 
我 们 将 按照 本 书 章节 的 顺序 讨论 这 些 实现 要 求 。 


C1 链 路 层 的 需求 


本 市 依据 RFC 1122 中 的 2.5 布 总 结 了 链 路 层 需求 和 Net/3 代 码 对 这 些 需 求 的 支持 程度 。 

。 建议 支持 尾部 封装 。 

部 分 支持 : Net3 不 发 送 带 有 尾部 封装 的 了 P 了 数据 报 ， 但 某 些 NeUV3 设 备 驱 动 程序 能 够 接收 
此 类 数据 报 。 感 兴趣 的 读者 可 以 阅读 RFC 893 和 [Leffler et al. 1989] 的 11.8 节 。 

* 没有 协商 之 前 ， 上 默认 状 态 必 须 不 发 送 尾部 。 

不 支持 : Net/2 支 持 是 否 发 送 尾部 启动 的 协商 过 程 。Net/3 忽 略 发 送 尾 部 请 求 ， 且 不 会 同 
对 端 申请 发 送 尾 部 。 

* 必须 能 够 发 送 和 接收 RFC 894 的 以 太 网 封装 。 

支持 : Net/3 支 持 RFC 894 的 以 太 网 封装 。 

。 应 该 能 够 接收 RFC 1042(IEEE 802) 封 装 。 

不 支持 : Net/3 能 够 处 理 收 到 的 IEEE 802 的 封装 格式 ， 但 只 用 于 OSI 协议 栈 。 到 达 的 按 
802.3 封 装 的 了 了 数据 报 将 被 ether_input 于 弃 ( 图 4-13)。 

。 建 议 发 送 报 文 段 实 现 RFC 1042 封 装 格 式 ， 为 此 ， 系 统 还 必须 实现 软件 可 配置 的 转换 开 
关 以 选择 合适 的 封装 格式 ， 且 RFC 894 应 为 默认 值 。 

不 支持 : NeU3 的 发 送 报 文 段 不 支持 RFC 1042 封 装 格式 。 

。 必须 癌 I 了 了 层 提交 链 路 层 的 广播 报 文 。 

支持 : 链 路 层 通过 置 位 mbuf 数 据 报 首部 的 M_BCRAST 标 志 ( 或 M_MCRAST 多 播 标 志 ) 报 告 链 
路 层 的 广播 。 

。 必须 辐 链 路 层 提交 IP TOS 值 。 

支持 : Net/3 没 有 明确 地 提交 TOS 值 ， 而 是 作为 链 路 层 可 利用 的 IP 首 部 的 一 部 分 出 现 


C.2 ”IP 的 需求 


AHA RFC 1122 的 3. 5 节 建 议 的 IP 的 需求 以 及 本 书 介绍 的 Net/3 系 统 对 这 些 需 iK BJ 3c FF 
程度 。 
。 必须 实现 IP 和 ICMP 。 
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+F: inetsw[0] SEHE f IP, inetsw[4] 实现 了 ICMP。 
* VIALE Hl BER Yn 4 Tz H (multihoming)ii fa . 

支持 : 内 核 不 区 分 远 端 多 接口 通信 ， 因 此 ， 既 不 阻碍 也 不 支持 应 用 程序 的 这 种 通信 方 
Fo 
* 建议 支持 本 地 的 多 接口 通信 。 

支持 : Net/3 系 统 维护 一 个 fnet 列 表 ， 且 每 个 i1fnet 结 构 都 带 有 一 个 ifaddr 列 表 ， 即 
每 个 IP 接 口 可 配置 多 个 IP 地 址 ， 从 而 支持 本 地 多 接口 通信 ，。 
。 如 采 转 发 卫 数 据 报 ， 则 必须 满足 路 由 器 规约 。 

部 分 支持 : 参见 第 18 章 ， 其 中 详细 讨论 了 路 由 器 的 需求 。 
* 必须 为 内 置 的 路 由 强 功 能 提供 使 能 选项 ， 上 默认 设置 应 为 主机 操作 。 

Xt: ijpforwarding 变 量 默 认 值 为 FALSE， 控 制 Net/3 中 的 IP 数 据 报 转发 机 制 。 
。 必 须 楚 止 基于 JP 接口 数 的 选 路 。 

支持 : i£f_attach 函 数 并 不 根据 系统 初 局 时 配置 的 接口 数 来 修改 ipforwarding 
变量 。 
"应 该 记录 丢弃 的 数据 报 ， 包 括 其 内 容 ， 并 在 统计 计数 器 中 记录 丢弃 事件 。 

部 分 支持 : Net/3 没 有 提供 一 种 机 制 ， 能 够 保存 丢弃 数据 报 的 内 容 ， 但 维护 多 种 统计 计 
Zi as. 
* 必须 丢弃 IP 版 本 号 不 等于 4 的 数据 报 而 不 回 显 信息 。 

支持 : ipintz 实 现 此 需求 。 
* 必须 验证 卫 检 验 和 ， 并 丢弃 验证 失败 的 数据 报 而 不 回 显 信息 。 

支持 : ipintz 调 用 ip cksum， 实 现 此 需求 。 
。 必须 支持 子 网 地 址 (RFC 950), 

支持 : 在 in_ifaddr 结 构 中 ， 所 有 的 IP 地 址 都 有 一 个 对 应 的 子 网 掩 码 。 
* 必须 把 主机 自己 的 IP 地 址 作为 源 IP 地 址 ， 与 数据 报 同 时 发 送 。 

部 分 支持 : 如 果 运 输 层 发 送 的 IP 数 据 报 中 ， 源 地 址 为 全 0 时 ，IP 插 入 外 出 接口 的 IP 地 址 
作为 源 地 址 。 应 用 进程 可 以 把 某 个 本 地 播 口 绑 定 在 本 地 了 广播 地 址 上 ， 卫 将 其 作为 无 效 
* 必须 丢弃 不 是 发 往 本 地 主机 的 数据 报 而 不 回 显 信息 。 

支持 : 如 采 系 统 没 有 被 配置 为 路 由 右 ，ipintz 丢 弃 目 的 地 址 差错 (无 法 辨认 的 单 播 、 
广播 或 多 播 地 址 ) 的 数据 报 。 
。 必须 丢弃 源 地 址 差错 的 数据 报 而 不 回 显 信息 。 

不 支持 : ipintr 把 数据 报 提 交 给 运输 层 之 前 ， 不 检测 进入 数据 报 的 源 地 址 。 
“必须 文 持 重 小 。 

文 持 : ijp_reass 实 现 重 装 。 
“建议 为 同一 个 IP 数 据 报 设 定 同样 的 ID。 

不 文 持 : ip_output 为 每 个 外 出 数据 报 赋 一 个 新 的 ID ， 并 且 不 允许 运 输 层 协议 设 定 了 
数据 报 的 ID 。 参 见 第 32 章 。 

* 必须 允许 运输 层 设 定 TOS。 

支持 : ip_output 接 受 运 输 层 协议 在 IP 首 部 设 定 的 所 有 TOS 值 。 运 输 层 在 默认 情况 下 ， 
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必须 把 TOS 设 为 全 0。 应 用 进程 可 通过 IP_TOS 插 口 选项 设 定 某 个 特定 数据 报 或 连接 的 
TOS 值 。 

。 必须 把 TOS 值 上 交 给 运输 层 。 

支持 : Net/3 在 输入 处 理 期 间 保 存 TOS 字 段 的 值 。 当 IP 针 对 接收 数据 报 的 协议 调用 
pr_input 畏 数 时 ， 运 输 层 可 得 到 完整 的 卫 首部 。 不 幸 的 是 ，UDP 和 TCP 运 输 层 协议 忽 
略 该 字段 。 

。 应 该 不 采用 RFC 795 [Postel 1981d] 中 建议 的 TOS 链 路 层 匹 配方 式 。 

支持 : Net/3 没 有 使 用 这 些 匹 配方 式 。 

。 必须 不 发 送 TTL 等 于 0 的 数据 报 。 

部 分 支持 : Net/3 中 的 IP 层 (ip_output) 不 检查 这 项 需求 ， 而 是 依靠 运输 层 以 使 得 不 会 
构造 TTL 等 于 0 的 IP 首 部 。UDP、TCP、ICMP 和 IGMP 都 选择 了 一 个 非 零 的 TTL 默 认 值 。 
但 默认 值 可 被 IP_TTL 选 项 忽略 。 

。 必须 不 丢弃 TTL 小 于 2 的 接收 数据 报 。 

支持 : 只 要 系统 是 数据 报 的 目的 地 ，ipintr 将 接受 该 数据 报 ， 并 不 测试 其 TTL 值 。 只 
有 在 数据 报 需要 被 转发 时 ， 才 会 检测 TTL 值 。 

。 必须 允许 运输 层 设 定 TTL。 

支持 : 运输 层 在 调用 ip_output 之 前 ， 必 须 设 定 TTL。 

。 必须 允许 配置 一 个 固定 的 TTL 值 。 

支持 : 全 局 整 型 变量 ip deftt1l 中 保存 了 TTL 上 默认 值 ， 等 于 64(IPDEFTTL)。UDP 和 
TCP 都 使 用 此 默认 值 ， 除 非 应 用 进程 通过 IP_TTL 插 口 选项 为 某 个 特定 的 插口 指派 了 一 
个 不 同 的 值 。 通 过 调用 sysct1， 通 过 指派 IPCTL_DEEFTTL， 可 以 修改 ip_deftt1l。 


多 接口 


“应 该 选取 接收 数据 报 中 指定 的 目的 地 址 作为 啊 应 的 产地 址 。 

XT AAA 5)。 运 和 输 层 生成 的 
啊 应 在 其 各 自 章节 中 做 了 描述 。 

* 必须 允许 应 用 进程 选取 本 地 IP 地 址 。 

支持 : 应 用 程序 能 够 把 择 口 绑 定 在 指派 的 本 地 卫 地 址 上 (15.8-)。 

* 建议 丢弃 目的 地 址 与 所 到 达 的 接口 [PP 地址 不 同 的 数据 报 而 不 回 显 信 息 。 

不 支持 : Net/3 实 现 了 一 个 简单 的 终端 系统 模型 ，ipintr 接 受 此 类 的 数据 报 。 

* 建议 数据 报 离开 系统 时 所 选 接口 的 IP 地 址 应 与 数据 报 的 源 地 址 一 致 。 本 需求 不 适用 于 源 
站 选 路 的 数据 报 。 

不 支持 : Net/3 允 许 数 据 报 通过 任意 接口 离开 系统 一 一 男 一 个 简单 终端 系统 的 特征 。 


广播 


“必须 禁止 在 源 地 址 中 选用 IP 广 播 地 址 。 

部 分 支持 : 如 采 应 用 程序 明确 地 指派 了 源 地 址 ，IP 层 不 会 改变 此 设置 。 否 则 ， 卫 选择 与 
外 出 接口 相连 的 IP 地 址 作为 源 地 址 。 

“应 该 接受 全 0 或 全 1 的 广播 地 址 。 
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支持 : ipintr 接 受 发 同上 述 任何 一 个 地 址 的 数据 报 。 

* 建议 提供 选项 ， 人 允许 在 指派 接口 上 配置 广播 地 址 为 全 0 或 全 1。 如 果 提 供 该 选项 ， 可 配置 
的 广播 地 址 默认 值 应 为 全 1。 | 

不 支持 : 应 用 进程 必须 明确 地 加 全 0(INRADDR_RANY) 或 全 1(INADDR BROADCAST)/ $W 
地 址 发 送 数据 报 。 疫 有 配置 默认 值 。 

。 必须 在 链 路 层 广播 中 使 用 IP 广 播 地 址 或 IP 多 播 目 的 地 址 。 

支持 : 只 有 当 目 的 地 址 是 IP 多 播 地 址 或 广播 地 址 时 ，ip_output 才 会 置 位 链 路 层 多 播 
或 广播 标志 。 

。 应 该 丢弃 链 路 层 广 播 数 据 帧 而 不 回 显 信 息 ， 如 果 它 未 指派 某 个 卫 广 播 地 址 作为 其 目的 地 
址 。 

不 支持 : Net/3 中 ， 没 有 对 输入 数据 报 中 的 M_BCAST 或 M_MCAST 标 志 做 明确 测试 ， 但 
ip_forward 在 转发 前 会 丢弃 这 些 数 据 报 。 

。 对 直接 相连 的 网 络 ， 应 使 用 受 限 的 广播 地 址 

部 分 支持 : Net/3 中 ， 是 否 使 用 受 限 的 广播 地 址 (相对 于 子 网 广播 地 址 和 全 网 广播 地 址 ) 由 
应 用 进程 决定 。 


IP 接 口 


“必须 允许 运输 层 使 用 所 有 的 IP 机 制 ( 如 IP 选 项 、TTL 和 TOS)。 

支持 : Net/3 中 的 运输 层 可 使 用 所 有 的 IP 机 制 |。 

* 必须 癌 运输 层 提交 了 接口 号 。 

支持 : 每 个 保存 进入 数据 报 的 mbuf 中 的 m_Pkthdr .rcvif 成 员 变 量 指向 一 个 ifnet 结 
构 ， 其 中 保存 了 接收 该 数据 报 的 接口 的 信息 。 

* 必须 向 运输 层 提 交 所 有 IP 选 项 

支持 : ijpintr 册 运输 层 接 收 协 议 的 pr_input 函数 提交 的 数据 报 中 ， 包 含 了 完整 的 IP 
首部 ， 包 括 各 种 IP 选 项 。 

“必须 允许 运输 层 发 送 “ICMP 足 口 不 可 达 ” 报 文 和 其 他 所 有 ICMP 查 询 报 文 。 

支持 : 运输 层 调用 ijcmp _ error 可 以 发 送 任 何 ICMP 差 错 报 文 ; 或 者 调用 ip_output， 
构造 并 发 送 任何 类 型 的 IP 数 据 报 。 

* 必须 癌 运输 层 提交 下 列 ICMP 报 文 : 目的 地 址 不 可 达 、 源 站 抑制 、 回 显 回答 、 时 间 戳 回 
人 答 和 数据 报 超时 。 

支持 : ICMP 可 以 向 其 他 运输 层 协议 发 送 此 类 报 文 段 ， 或 通过 原始 IP 机 制 加 任何 等 待 进 
程 发 送 此 类 报 文 段 。 

"必须 在 向 运输 层 提 交 的 ICMP 报 文中 包括 ICMP 报 文 内 容 (IP 首 部 和 附加 数据 ) 

支持 : icmp_input 问 运输 层 提交 包含 在 ICMP 报 文中 的 原始 IP 数 据 报 。 

* 应 该 在 一 次 处 理 中 完成 所 有 功能 。 

不 支持 : 也 许 在 下 一 版 正中 能 够 实现 。 


C.3 IP 选项 的 要 求 
本 布 总 结 了 RFC 1122 第 3.5 节 中 卫 选 项 处 理 的 需求 ， 以 及 本 书 介绍 的 NeV3 系 统 对 这 些 需 求 


876 TCP/IPiYÉRg %2: 实现 


的 支持 程度 。 
。 必须 允许 运输 层 设 置 IP 选 项 。 
Xt: ip_output 的 第 二 个 参数 即 为 用 于 输出 IP 数 据 报 的 IP 选 项 列表 。 
。 必须 向 高 层 提 交 收 到 的 所 有 IP 选 项 。 
支持 : 了 首部 及 选项 都 能 传递 给 运输 层 接收 协议 的 pr_input 国 数 。 
* 必须 忽略 所 有 未 知 选 项 。 
支持 : ip_dooptions 中 的 default 语 句 跳 过 了 所 有 未 知 选 项 。 
。 建议 支持 安全 选项 。 
不 支持 : Net/3 不 支持 IP 安 全 选项 。 
。 建议 不 发 送 流 标识 选项 ， 并 且 必 须 忽 略 接 收 数据 报 中 的 该 选项 。 
支持 : Net/3 不 支持 流标 识 选 项 ， 并 忽略 接收 数据 报 中 的 该 选项 。 
* 建议 支持 路 由 记录 选项 。 
支持 : Net/3 支 持 路 由 记录 选项 。 
* 建议 支持 时 间 堆 选项。 
部 分 支持 : Net/3 支 持 时 间 玲 选项 ， 但 没有 完全 遵照 规定 的 方式 递增 时 间 截 值 。 有 时 间 玲 
请 求 时 ， 源 主机 并 未 在 报 文 段 中 插入 时 间 戳 ， 而 是 由 对 端 主机 在 向 运输 层 提 交 数 据 报 之 
前 记录 时 间 戳 值 。 时 间 戳 值 遵守 RFC 1122 第 3.2.2.8 闻 中 对 ICMP 时 间 惟 报 文 段 标准 值 的 
规定 。 
。 必须 支持 源 站 选 路 ， 必 须 能 够 成 为 源 站 选 路 报 文 段 的 终点 。 
xd: 产 站 选 路 选项 可 作为 传 送 给 ijp_output 的 参数 ，ip_dooptions 能 够 正确 地 终 
止 源 站 选 路 ， 并 能 保存 该 路 由 ， 在 构造 返回 路 由 时 使 用 。 
* 癌 运输 层 提交 数据 报时 ， 必 须 同时 提交 完整 的 源 站 选 路 路 由 。 
支持 : 源 站 选 路 路 由 与 其 他 数据 报 中 可 能 出 现 的 卫 选 项 一 起 ， 提 交 给 运输 层 。 
。 必须 构造 正确 的 ( 非 元 余 的 ) 返 回路 由 。 
不 支持 : Net3 只 是 简单 地 逆转 收 到 的 源 选 路 路 由 ， 并 不 检查 或 纠正 路 由 中 可 能 存在 的 多 
余 转 发 。 
。 必须 禁止 在 一 个 首部 中 发 送 多 个 源 路 由 选项 。 | 
不 支持 : Net/3 的 IP 层 不 禁止 运输 层 在 一 个 数据 报 中 构造 并 发 送 多 个 源 路 由 。 


源 路 由 转发 


e 建议 支持 带 源 路 由 选项 的 数据 报 的 转发 。 

支持 ， Net/3 支 持 源 路 由 选项 。ip_dooptions 实 现 所 有 功能 。 

. 处 理 源 路 由 选项 的 同时 ， 必 须 遵守 相应 的 路 由 器 原则 。 

支持 : NeU3 遵 守 路 由 器 原则 ， 无 论 数据 报 上 是 否 包含 源 路 由 。 

。 必须 根据 网 关 原 则 更 新 TTL。 

支持 : ip_forward 实 现 本 需求 。 

. 必须 生成 ICMP 差 错 代 码 4 和 5( 需 要 分 片 和 源 路 由 失败 )。 

支持 : ip_output 能 够 生成 “需要 分 片 ” 报 文 ，ip_dooptions 能 够 生成 “ 源 路 由 失 
败 ” 报 文 。 
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。 必须 允许 带 有 源 路 由 选项 数据 报 的 IP 源 地 址 不 是 转发 主机 的 IP 地 址 。 
支持 : ip_output 发 送 此 类 数据 报 。 
RFC 1122 将 本 需求 指明 为 “建议 ， 因 为 地 址 可 能 不 一 致 ， 但 必须 允许 这 种 不 
一 致 。 


。 必须 更 新 时 间 惟 和 记录 路 由 选项 
支持 : ip_dooptions 为 带 有 源 路 由 选项 的 数据 报 处 理 这 些 选 项 。 

。 必须 支持 一 个 可 配置 选项 ， 用 于 打开 或 关闭 “ 非 本 地 源 路 由 ”。 选 项 默认 值 应 为 关闭。 
不 支持 : Net/3 人 允许 非 本 地 源 选 路 ， 没 有 提供 一 个 选项 来 关闭 此 功能 。 非 本 地 源 选 路 指 在 
两 个 不 同 接口 间 转 发 数据 报 ， 而 不 是 在 同一 接口 接收 和 发 送 数据 报 。 

。 韭 本 地 源 选 路 处 理 中 ， 必 须 满 足 网 关 接 入 规则 。 
支持 : Net/3 在 非 本 地 源 选 路 处 理 过 程 中 ， 遵 守 转 发 规则 。 

* 如果 无 法 转发 源 选 路 数据 报 (除了 ICMP 差 错 报 文 )， 应 该 发 送 ICMP“ 目 的 地 不 可 达 ” 差 
错 ( 源 路 由 失败 ) 报 文 。 
支持 : ip_dooptions 发 送 ICMP“ 目 的 地 不 可 达 ” 差 错 报 文 。 如 果 处 理 的 数据 报 是 一 
个 ICMP 差 错 报 文 ，icmp_error 将 丢弃 新 生成 的 ICMP 差 错 报 文 。 


C4 IP 分 片 与 重 装 的 需求 


本 市 总 结 了 REFC 1122 第 3.5 节 中 关于 IP 分 片 和 重 装 的 需求 ， 以 及 Net3 对 这 些 需 求 的 支持 
程度 。 

“必须 能 够 重 疙 输入 的 数据 报 ， 数 据 报 长 度 至 少 为 576 字 市 。 

支持 : ip_reass 支 持 数据 报 的 重 装 ， 且 数据 报 的 长 度 不 限 。 
“应 该 不 限制 输入 数据 报 的 长 度 ， 或 者 允许 配置 输入 数据 报 长 度 的 上 限 。 

支持 : Net/3 不 限制 输入 数据 报 的 长 度 。 
* 必须 提 供 某 种 机 制 ， 允 许 运 输 层 了解 接收 的 最 大 数据 报 长 度 。 

不 适用 : Net/3 可 接收 的 数据 报 长 度 只 受 可 用 存储 如 的 限制 。 
* 重 疫 超 时 时 ， 必 须 能 够 发 送 ICMP “数据 报 超时 ”差错 报 文 。 

不 支持 : Net/3 不 发 送 ICMP “数据 报 超时 ”差错 报 文 。 参见 图 10-30 和 习题 10.1。 
* 应 该 设 定 一 个 固定 的 重 装 超时 值 ， 且 不 应 该 采用 收 到 的 IP 分 片 中 TTL 的 剩余 值 作为 重 汇 
超时 值 。 

支持 : Net/3 采 用 编译 时 指派 的 固定 值 30 秒 (ITPFRRAGTTL 等 于 60 个 慢 超时 时 间 间 隔 ， 约 为 
30 秒 ) 作 为 重 装 超时 值 。 
“必须 回 高 层 提供 NMS_S( 可 发 送 的 最 大 报 文 段 长 度 )。 

部 分 支持 : TCP 首 先 从 到 达 目 的 地 的 路 由 表 项 中 找到 最 大 的 MTU ， 或 者 是 读 取 外 出 接口 
的 MITU， 并 根据 上 述 MTU 计 算出 NMS_S。UDP 应 用 程序 无 法 得 到 此 信息 。 
* 必须 支持 对 外 出 数据 报 的 本 地 分 卢 。 

支持 : 如 果 ip_output 发 现 外 出 数据 报 长 度 大 于 指定 外 出 接口 的 MTU， 则 对 其 分 三 。 

* 如果 不支 持 数 据 报 的 本 地 分 片 ， 则 必须 禁止 运输 层 发 送 长 度 大 于 NMS_S 的 报 文 段 。 

不 适用 : 这 条 对 于 运输 层 的 需求 不 适用 于 Net/3 系 统 ， 因 为 系统 支持 数据 报 的 本 地 分 片 。 
。 如果 无 法 确 知 到 达 远 端 目的 地 路 由 的 最 小 MTU， 则 不 应 该 向 远 端 目的 地 发 送 大 于 576 字 
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PRE. ! 

部 分 支持 : Net/3 TCP 报 文 段 的 默认 大 小 等 于 $53 字 节 (512 字 节 数 据 + 40 字 节 首 部 )。 
Net/3 UDP 应 用 程序 无 法 确认 目的 地 址 位 于 本 地 ， 或 是 远 端 ， 因 此 ， 通 常 都 将 报 文 段 大 
小 限制 在 540 字 市 以 下 (512 + 20 + 8)。 内 核 中 没有 机 制 禁 止 发 送 长 度 超出 限制 的 报 文 。 

。 建议 支持 “全 部 子 网 MTU” 配 置 标志 。 

xti: 全 局 变量 subnetsarelocal 上 默认 为 TRUE。TCP 向 本 地 网 络 中 的 某 个 子 网 发 送 
报 文 段 时 ， 利 用 该 标志 选择 较 大 的 报 文 段 长 度 (外 出 接口 的 MTU 的 大 小 )， 取 代 默 认 的 报 
文 段 大 小 。 


C.5 ICMP 的 需求 


本 节 总 结 了 REFC 1122 第 3.5 节 中 关于 ICMP 的 需求 ， 以 及 Net/3 系 统 对 这 些 需求 的 支持 
程度 。 

。 必 须 丢 弃 不 了 解 的 ICMP 报 文 而 不 回 显 信 息 。 

部 分 支持 : icmp_input 忽 略 未 知 的 ICMP 报 文 ， 将 其 交 给 zip_input， 后 者 将 报 文 段 
交 给 任何 等 待 进程 ， 或 者 在 没有 进程 接收 的 情况 下 将 其 丢弃 而 不 回 显 信 息 。 

。 建 议 携带 原始 数据 报 中 至 少 8 字 节 的 内 容 。 

不 支持 : icmp_erzror 在 ICMP 差 错 报 文 中 ， 最 多 返回 原始 数据 报 中 8 字 节 的 内 容 ， 参 见 
习题 11.9。 

。 必须 原封 不 动 地 返回 接收 数据 报 的 首部 和 数据 。 

部 分 支持 : Net/3 的 ipintr 将 接收 数据 报 的 ID 、 偏 移 量 和 长 度 字 段 从 网 络 字 节 序 转换 为 
主机 字 市 序 ， 从 而 方便 数据 报 的 处 理 。 但 Net/3 在 把 偏 移 量 和 长 度 字 段 放 入 ICMP 差 错 报 
文 时 ， 没 有 将 这 两 个 字段 转换 回 网 络 字 节 序 。 如 果 系 统 的 主机 字 节 序 与 网 络 字 节 序 相同 ， 
这 个 差错 不 会 引起 误解 。 但 如 果 系 统 的 主机 字 节 序 与 网 络 字 节 序 不 一 致 ，ICMP 差 错 报 
文中 携带 的 了 首部 报 文 段 中 的 偏 移 量 和 长 度 字 段 都 是 错误 的 。 


作者 发 现 ，Intel 版 的 SVR4 和 AIX 3.2( 基 于 Net/2) 返 回 的 长 度 字 段 的 字 节 顺序 都 是 
错误 的 ， 而 实验 过 的 其 他 不 基于 Net/2 和 Net/3 的 实现 (Cisco、NetBlazer、VM 和 
Solaris2.3) 却 没有 此 差错 。 

此 外 ， 在 UDP 代 码 中 发 送 ICMP“ 端 口 不 可 达 ” 差 错 报 文 时 ， 还 有 一 个 差错 : 接 
收 数据 报 的 首部 长 度 被 错误 地 修改 了 (23.7 节 )。 作 者 在 Net2 和 Net/3 系 统 中 都 发 现 了 
这 个 差错 ， 而 Net/1 版 中 却 没有 。 


。 必 须 能 够 将 收 到 的 ICMP 差 错 分 用 给 运输 层 协 议 。 

文 持 : icmp_error 利 用 原始 数据 报 首 部 的 协议 字段 选择 适当 的 运输 层 协 议 ， 以 啊 应 该 
Zi fH. 

* 发 送 ICMP 差 错 报 文 时 ，TOS 字 段 应 该 等 于 0。 

支持 : ijcmp_error 构 造 的 所 有 ICMP 差 错 报 文 的 TOS 字 段 都 等 于 0。 

“必须 禁止 ICMP 差 错 报 文 再 次 引发 新 的 ICMP 差 错 报 文 。 

部 分 支持 : ICMP 重 定 同 报 文 可 能 导致 icmp_error 发 送 新 的 ICMP 差 错 报 文 。RFC 
1122 第 3.2.2 节 中 把 ICMP 重 定向 报 文 划 分 为 ICMP 差 错 报 文 。 
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。 必 须 禁 止 IP 广 播 或 多 播报 文 引 发 ICMP 差 错 外 。 
不 支持 : icmp_error 不 进行 此 类 检查 。 
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。 必 须 蔡 止 链 路 层 广 播报 文 引 发 ICMP 差 错 报 文 。 

支持 : icmp_error 丢 弃 作 为 链 路 层 广播 或 多 播报 文 到 达 的 ICMP 报 文 。 

e 必须 禁止 IP 数 据 报 的 后 续 分 片 3| 发 ICMP 差 错 。 

支持 : icmp_error 丢 弃 此 类 情况 引发 的 ICMP 差 错 报 文 。 

e 必须 禁止 源 地 址 不 确定 的 数据 报 引 发 ICMP 差 错 报 文 。 

支持 : icmp_reflect 检 查实 验 性 地 址 和 多 播 地 址 。ip_output 丢 弃 源 地 址 等 于 广播 
地 址 的 数据 报 。 

。 不 属于 禁止 范围 之 内 时 ， 必 须 返 回 ICMP 差 错 报 文 。 

部 分 支持 : 一 般 情 况 下 ，Net/3 发 送 适 当 的 ICMP 差 错 报 文 。 但 某 些 情况 下 ， 它 无 法 发 送 
ICMP “分 片 重 装 超时 ” 报 文 (习题 10.1)。 

。 应 该 生成 ICMP “目的 站 不 可 达 ” 报 文 (协议 和 端口 )。 

不 支持 : 如 果 数 据 报 所 指明 的 协议 系统 不 支持 ， 则 交 由 zip_input 国 数 处 理 。 后 者 检 
查 确 认 系统 中 没有 应 用 进程 能 够 处 理 此 数据 报 后 ， 将 数据 报 丢 弃 而 不 回 显 信息 。UDP 生 
成 ICMP “端口 不 可 达 ”差错 报 文 。 

。 必 须 向 高 层 提交 ICMP“ 目 的 站 不 可 达 ” 差 错 报 文 。 

支持 : icmp input 加 指定 协议 的 pz_ct1linput 畏 数 (例如 ，UDP 的 udap_ct1linput 
国 数 ，TCP 的 tcp_ct1linput 畏 数 ) 提 交 此 类 报 文 。 

e wixWw "Hg ERC. 

2: 123.9755$127.675, 

* 必须 把 “目的 站 不 可 达 ” 差 错 解释 为 一 种 暗示， 可 能 只 是 一 种 临时 状态 。 

参见 23 .945 4027.67. 

e 如果 配置 为 主机 ， 则 必须 禁止 发 送 ICMP“ 重 定向 ” 报 文 段 。 

支持 : ip_forward， 唯 一 的 检测 和 发 送 “ 重 定向 ” 报 文 的 钞 数 ， 只 有 在 系统 配置 为 路 
HB A A UE. 

* 收 到 ICMP“ 重 定向 ” 报 文 时 ， 必 须 更 新 路 由 表 缓 存 。 

支持 : ijpintr 调 用 rtredirect， 处 理 此 报 文 。 

。 必须 能 够 处 理 “ 主 机 重 定向 ”和 “网 络 重 定 同 ” 报 文 有 段 。 此 外 ， 必 须 把 “网 络 重 定 同 ” 
报 文 作为 “主机 重 定向 ” 报 文 进 行 处 理 。 

支持 : ipintr 调 用 rtredirect， 处 理 这 两 类 报 文 。 

* 应 该 丢弃 非法 的 重 定 癌 报 文 

支持 : rtredirect 丢 弃 非 法 的 重 定 同 报 文 (第 19.7 市 )。 

。 存储 如 不 足 时 ， 建 议 发 送 “ 源 站 抑制 ” 报 文 。 

支持 : Rip _ output 返 回 ENOBUFS，ip forward 发 送 “ 源 站 抑制 ” 报 文 。 如 果 
mbuf 不 足 ， 或 者 接口 输出 队列 已 满 时 ， 会 出 现 这 种 情况 。 

。 必须 疝 高 层 提 交 “ 源 站 抑制 ” 报 文 。 

支持 : icmp_input 问 运输 层 提 交 “ 源 站 抑制 ”差错 报 文 。 
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。 高 层 应 该 响应 “ 源 站 抑制 ”差错 报 文 。 

详 见 23.9 节 和 27.6 节 ，UDP 和 TCP 的 处 理 逻 辑 。ICMP 和 IGMP 都 不 接受 ICMP 差 错 报 文 
(它们 疫 有 定义 自己 的 pr_ctlinput 国 数 )。 这 种 情况 下 ， 卫 将 丢弃 ICMP 差 钳 报 文 。 

*。 必须 向 运输 层 提 交 “数据 报 超时 ”差错 报 文 。 

支持 : icmp_input 回 运输 层 提交 此 类 差错 报 文 。 

。 应 该 发 送 “ 数 据 报 参数 错 ” 报 文 段 。 

支持 : ip_dqooptions 发 现 选项 构造 差错 时 ， 会 发 送 此 报 文 段 。 

。 必须 癌 运 输 层 报告 出 现 数据 报 参 数 差 错 。 

支持 : icmp_input 回 运输 层 报 告 此 类 差错 。 

* 建议 向 应 用 进程 报告 出 现 参数 差错 。 

详 见 23.9 节 和 27.6 方 ，UDP 和 TCP 的 处 理 届 辑 。ICMP 和 IGMP 都 不 接受 ICMP 差 错 报 文 。 
。 必须 支持 回 显 服务 器 ， 应 该 支持 回 显 客 户 。 

支持 : icmp_input 实 现 回 显 服务 器 ，ping 程 序 利用 原始 IP 插 口 实 现 回 显 客户 。 

e 建议 丢弃 发 往 广 播 地 址 的 回 显 请 求 报 文 。 

不 支持 : icmp_reflect 发 送 应 舍 。 

。 建议 丢弃 发 往 多 播 地 址 的 回 显 请 求 报 文 。 

不 支持 : Net/3 响 应 发 往 多 播 地 址 的 回 显 请 求 报 文 。icmp_reflect 和 ip_output 都 允 
许多 播 目 的 地 址 。 

。 必须 使 用 确定 的 目的 地 址 作为 回 显 回 答 报 文 的 源 地 址 。 

支持 : icmp_reflect 将 广播 地 址 或 多 播 地 址 转换 为 接收 接口 的 IP 地 址 ， 并 将 转换 后 的 
地 址 用 于 回 显 回 答 报 文 的 源 地 址 。 

。 必须 在 回 显 回 答 报 文中 返回 回 显 请 求 数据 。 

支持 : icmp_reflect 不 更 改 回 显 请 求 报 文 的 数据 部 分 。 

* 必须 癌 高 层 提交 回 显 回 答 报 文 。 

支持 : ICMP 回 显 回答 报 文 提交 给 zip_input， 进 而 交 给 指明 的 应 用 进程 。 

。 必须 响应 ICMP 回 显 请 求 报 文中 携带 的 记录 路 由 和 时 间 惟 选项 。 

支持 : icmp_reflect 在 回 显 回答 报 文中 包括 记录 路 由 和 时 间 戳 选项。 

。 必须 逆转 并 响应 源 路 由 选项 。 

支持 : icmp reflect 调 用 ip_srcroute， 获 取 逆 转 的 源 路 由 ， 并 放 和 外 出 的 回 显 回 
答 报 文 中 。 

。 应 该 不 支持 ICMP 信 息 请 求 和 信息 回答 报 文 段 。 

部 分 支持 : 内 核 不 生成 或 响应 这 两 类 报 文 段 ， 但 应 用 进程 可 能 会 通过 原始 IP 插 口 发 送 或 
接收 这 两 类 报 文 段 。 

* 建议 实现 ICMP 时 间 稚 请 求 和 时 间 玲 回答 报 文 段 。 

支持 : icmp_input 实 现时 间 惟 服务 器 的 功能 。 时 间 改 客户 的 功能 可 通过 原始 了 下 机 制 来 
实现 。 

。 必须 最 小 化 时 间 戳 延 时 偏 移 量 (如 果实 现时 间 惟 报 文 )。 

部 分 支持 : 接收 时 间 惟 在 报 文 从 卫 输 入 队列 中 取出 时 加 入 ， 发 送 时 间 改 在 报 文 放 入 接口 
输出 队列 前 加 入 。 
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。 建 议 丢 弃 发 往 广 播 地 址 的 时 间 惟 请 求 而 不 回 显 信息 。 

不 支持 : icmp_input 响 应 发 问 广 播 地 址 的 时 间 惟 请 求 。 

。 必须 使 用 确定 的 目的 地 址 作为 时 间 戳 回答 报 文 的 源 地 址 。 

支持 : icmp_reflect 将 广播 地 址 和 或 多 播 地 址 转换 为 接收 接口 的 耳 地 址 ， 并 将 转换 后 
的 地 址 用 于 时 间 惟 回答 报 文 的 源 地 址 。 

。 应 该 响应 ICMP 时 间 改 请 求 报 文中 携带 的 记录 路 由 和 时 间 戳 选项。 

支持 : icmp_reflect 在 时 间 惟 回答 报 文 中 包括 记录 路 由 和 时 间 惟 选项。 

。 必 须 逆转 并 响应 ICMP 时 间 惟 请 求 报 文中 携带 的 源 路 由 选项 。 

支持 : icmp zeflect 调 用 ip_szrcroute， 获 取 逆 转 的 源 路 由 ， 并 放 入 外 出 的 时 间 惟 
回答 报 文中 。 

。 必须 问 高 层 提 交 时 间 惟 回答 报 文 。 

支持 : ICMP 时 间 惟 回答 报 文 提交 给 xip_input， 进 而 交 给 指定 的 应 用 进程 。 

。 必 须 遵守 有 关 标 准时 间 戳 值 的 规定 。 

支持 : icmp_input 调 用 iptime， 后 者 可 返回 标准 时 间 戳 值 。 

。 必 须 能 够 通过 配置 改变 接口 的 地 址 掩 码 。 

不 支持 : Net/3 通 过 ifconfig 程 序 ， 只 支持 地 址 掩 码 的 静态 配置 。 

。 必须 支持 地 址 掩 码 的 静态 配置 。 

支持 : Net/3 间 接 实现 了 这 一 功能 。 典 型 情况 下 ， 通 过 /etc/netstart 批 处 理 文件 执行 
系统 初始 化 ， 调 用 ifconfig 程 序 配 置 接口 时 ， 可 设 定 静态 信息 。 

* 建议 系统 初始 化 时 动态 获取 地 址 掩 码 。 

不 支持 : Net/3 不 支持 利用 BOOTP 或 DHCP， 获 取 地 址 掩 码 信 息 。 

* 建议 通过 ICMP 地 址 掩 码 请 求 和 回答 报 文 获取 地 址 掩 码 信息 。 

不 支持 : Net/3 不 支持 通过 ICMP 地 址 掩 码 请 求 和 回答 报 文 获取 地 址 掩 码 信息 。 

。 如 果 没 有 啊 应 ， 必 须 重 传 地 址 掩 码 请 求 。 

不 适用 : Net/3 不 支持 此 项 功能 。 

。 如果 没 有 啊 应 ， 建 议 使 用 假定 的 默认 地 址 掩 码 

不 适用 : Net3 不 支持 此 项 功能 。 

。 只 允许 在 收 到 第 一 个 啊 应 时 更 新 地 址 掩 码 。 

不 适用 : Net/3 不 支持 此 项 功能 。 

* 建议 对 所 有 已 安装 的 地 址 掩 码 进行 合理 的 检测 。 

不 支持 : Net/3 不 对 地 址 掩 码 进 行 检测 。 

。 必须 禁止 响应 未 确认 的 地 址 掩 码 请 求 报 文 ， 且 必须 被 明确 地 配置 为 代理 。 

支持 : icmp_input 只 有 当 icmpmaskrep1 非 零 时 (默认 为 0)， 才 会 啊 应 地 址 掩 码 请 求 
TR X. 

。 应 该 为 每 个 静态 配置 的 地 址 掩 码 设 定 相 应 的 地 址 掩 码 确 认 标 志 。 

不 支持 : Net/3 只 维护 一 个 全 局 的 确认 标志 (icmpmaskrepl1)， 发 送 任何 接口 的 地 址 掩 
码 回答 报 文 之 前 都 要 查询 同一 个 全 局 变量 。 

。 必 须 在 初始 化 时 广播 地 址 掩 码 回 答 报 文 。 

不 支持 : Net/3 配 置 接口 时 ， 不 广播 地 址 掩 码 回答 报 文 。 
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C.6 多 播 的 需求 


本 市 总 结 了 RFC 1122 第 3.5 市 关于 IP 多 播 功能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需 求 的 支持 
程度 。 

* 应 该 支持 本 地 IP 多 播 (RFC 1122), 

xti: Net/3 文 持 IP 多 播 。 

。 应 该 在 启动 时 加 入 全 主机 组 。 

支持 : in_ifinit 和 初始 化 接口 时 加 入 全 主机 组 。 

。 应 该 为 高 层 提 供 一 种 机 制 ， 使 其 能 够 了 解 接口 的 IP 多 播 功能 

支持 : 内 核 代码 能 够 直接 访问 接口 fnet 结 构 中 的 IFF_MULTICAST 标 志 ， 应 用 进程 通 

过 SIOCGIFFLAGS 命 令 也 能 做 到 这 一 点 。 


C.7 IGMP 的 需求 


本 市 总 结 了 RFC 1122 第 3.5 关 于 IGMP 功 能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需 求 的 支持 
程度 。 

。 建 议 支持 IGMP(RFC 1122) 

支持 : Net3 支 持 IGMP。 


C.8 选 路 的 需求 


4B RFC 1122 第 3.5 布 关于 IP 选 路 功能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需 求 的 支持 程 
度 。 请 注意 ，RFC 中 的 这 些 需 求 只 适用 于 主机 ， 而 非 内 核 的 实现 。Net/3 内 核 的 选 路 函数 没有 
明确 实现 其 中 的 某 些 条 款 ， 但 这 些 功 能 都 包括 在 后 台 选 路 进程 如 zouted 或 gated 中 。 

。 必须 使 用 地 址 掩 码 来 确定 数据 报 的 目的 地 址 是 否 位 于 直接 相连 的 网 络 中 。 

支持 : 在 配置 连通 某 个 网 络 ( 如 以 太 网 ) 的 接口 时 ， 同 时 也 配置 了 接口 的 地 址 掩 码 (或 根据 

IP 地 址 的 类 别 选 择 一 个 默认 的 地 址 掩 码 )， 保 存在 路 由 表 表 项 中 。rn_match 查 找 网 络 匹 

配 上 时， 会 用 到 已 配置 的 地 址 掩 码 。 

。 不 存在 路 由 器 (所 有 网 络 都 直接 相连 ) 时 ， 必 须 能 在 最 小 环境 中 运行 正常 ， 

支持 : 这 种 情况 下 ， 系 统管 理 员 不 允许 配置 默认 路 由 。 

* 必须 在 缓存 中 保存 到 达 下 一 跳 路 由 器 的 路 由 。 

支持 : 路 由 表 位 于 缓存 中 。 

。 “网 络 重 定 癌 ” 报 文 的 处 理 方式 应 该 等 同 于 “主机 重 定向 ” 报 文 。 

支持 : 详 见 19.7 节 。 

。 必 须 使 用 默认 路 由 器 ， 如 果 路 由 表 中 设 有 到 达 目 的 地 址 的 路 由 记录 。 

支持 : 条 件 是 路 由 表 中 已 配置 有 默认 路 由 。 

。 必 须 支 持 多 个 默认 路 由 器 。 

内 核 不 支持 多 条 默认 路 由 。 完 成 选 路 的 后 台 进 程 可 能 支持 此 功能 。 

。 建 议 实现 静态 路 由 表 。 

支持 : 可 在 系统 初始 化 时 通过 route 命 令 实现 

。 建议 为 每 条 静态 路 由 指派 一 个 标志 ， 说 明 它 是 否 能 被 重 定 向 报 文 修改 。 
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不 支持 。 
。 建议 采 用 完整 的 主机 地 址 ， 而 不 是 网 络 地 址 作为 路 由 表 的 表 项 

支持 : 主机 路 由 比 到 达 同 一 网 络 的 网 络 路 由 具有 优先 权 。 
。 应 该 在 路 由 表 表 项 中 包括 TOS 值 。 

不 支持 : 第 21 草 中 描述 的 sockaddr_inarp 结 构 中 定义 了 TOS 字 段 ， 但 目前 未 使 用 。 

* 必须 能 够 检测 路 由 表 中 出 现在 网 关 域 的 下 一 跳 路 由 器 的 故障 ， 并 能 选择 其 他 的 下 一 跳 路 
Hz. 

消极 的 建议 。in_losing 生 成 的 RTM_LOSING 报 文 ， 将 被 上 交 给 从 选 路 插口 读 取 数据 
的 所 有 进程 ， 从 而 允许 应 用 进程 (如 ， 某 个 选 路 后 台 进 程 ) 处 理 该 事件 。 

* 不 应 该 假定 一 条 路 由 永远 正 第 。 

支持 : 除了 ARP 生 成 的 表 项 外 ，Net/3 内 核 路 由 表 中 的 其 余 表 项 没有 超时 字段 。UNIX 系 
统 标准 的 后 台 选 路 进程 负责 对 路 由 表 项 定时 ， 超 时 后 ， 在 可 能 的 情况 下 ， 选 择 另 一 条 路 
由 替代 已 超时 的 路 由 。 

。 必 须 禁止 连续 ping(ICMP 回 应 请 求 ) 路 由 器 。 

支持 : Net/3 内 核 不 会 这 样 做 。 后 台 选 路 进程 也 不 会 生成 ICMP 回 应 请 求 报 文 。 

* 只 有 在 需要 同 路 由 如 发 送 报 文 时 ， 才 允许 ping 路 由 絮 。 

Net3 内 核 绝 不 会 ping 下 一 跳 路 由 右 。 

* 应 该 实现 某 种 机 制 ， 允 许 高 层 或 低层 向 路 由 模块 报告 正常 或 差错 。 

部 分 支持 : 其 他 层 同 Net/3 选 路 函数 传递 信息 的 唯一 方式 是 通过 in_losing，,， 而 
in_losing 只 被 TCP 调 用 。 选 路 层 采取 的 唯一 动作 是 生成 RTM_LOSING 报 文 段 。 

。 默 认 路 由 器 出 现 故 障 时 ， 必 须 切 换 到 另 一 个 默认 路 由 器 上 。 

支持 : 尽管 NeU3 内 核 不 实现 此 功能 ， 但 得 到 后 台 选 路 进程 支持 。 

"必须 能 够 手工 配置 路 由 表 中 的 下 述 信息 : IP 地 址 、 网 络 掩 码 和 上 默认 路 由 表 。 

支持 : 但 内 核 只 支持 一 条 默认 路 由 。 


C.9 ARP 的 需求 


本 市 总 结 了 RFC 1122 第 2.5 节 关于 ARP 功 能 的 需求 ， 以 及 Net3 系 统 对 这 些 需求 的 实现 程度 。 
。 必 须 提供 某 种 机 制 ， 能 够 清除 过 时 的 ARP 记 录 。 如 果 利 用 超时 ， 时 限 应 是 可 配置 的 。 
支持 : arptimer 提 供 所 要 求 的 机 制 。 时 限 是 可 配置 的 (arp_prune 和 arp_keep 全 局 
变量 )， 但 改变 时 限 值 的 唯一 方式 是 重新 编译 内 核 ， 或 通过 调试 右 修 改 内 核 。 

。 必须 提供 某 种 机 制 ， 防 止 ARP 潜 谤 。 

支持 : 详 见 图 21-24。 

e 应 该 保存 (而 非 丢 弃 ) 至 少 一 个 (最 后 一 个 )， 发 往 同一 个 未 解析 的 IP 地 址 的 数据 报 ， 并 且 
在 IP 地 址 解析 后 发 送 保存 的 数据 报 。 

支持 : 这 就 是 定义 11info_arp 结 构 中 la_hold 成 员 变 量 的 目的 。 


C.10 UDP 的 需求 


本 市 总 结 了 RFC 1122 第 4.1.5 市 关于 UDP 功 能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需 求 的 实现 
程度 。 
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。 应 该 发 送 ICMP“ 端 口 不 可 达 ” 差 错 报 文 。 
xti: udp_input 完 成 此 功能 。 

。 必须 问 应 用 程序 提交 接收 的 卫 选 项 。 

不 支持 : udp_input 中 实现 此 功能 的 代码 被 注释 掉 了 。 也 就 是 说 ， 即 使 应 用 进程 收 到 
的 UDP 报 文 段 中 带 有 源 选 路 选项 ， 也 无 法 采用 逆 回 路 由 发 送 啊 应 。 

。 必 须 允 许 应 用 进程 指派 发 送 的 卫 选 项 。 
支持 : IP_OPTIONS 揪 口 选项 实现 此 功能 。 指 派 的 选项 保存 在 PCB 中 ， 并 由 
ip_output 放 入 输出 的 IP 数 据 报 中 。 

* 必须 能 向 下 向 IP 层 传递 IP 选 项 。 
支持 : 前 面 已 提 到 ，IP 把 选项 放 入 IP 数 据 报 中 。 

« 必须 向 应 用 程序 提交 收 到 的 ICMP 报 文 。 
支持 : 我 们 必须 阅读 RFC 原文 :“ 基 于 UDP 的 应 用 程序 ， 如 果 希 望 接 收 ICMP 差 错 报 文 ， 
则 应 负责 维护 必需 的 状态 ， 从 而 在 报 文 段 到 达 时 能 够 正确 处 理 。 例 如 ， 应 用 程序 可 能 需 
要 为 此 保存 一 个 挂 起 的 接收 操作 。 基于 Berkeley 系 统 所 需 的 状态 ， 是 指 插 口 已 连接 到 远 
端 地 址 和 插口 上 。 如 同 图 23-26 起 始 处 的 注释 所 指出 的 ， 某 些 应 用 程序 为 指派 的 远 端 端 
口 同 时 创建 连接 插口 和 非 连 接 插 口 ， 利 用 连接 插口 接收 异步 差错 。 

。 必 须 能 够 生成 并 验证 UDP 检验 和 。 
支持 : udp_input 在 全 局 变量 udapcksum 的 基础 上 实现 此 功能 。 

。 必 须 丢 弃 检 验 和 验证 失败 的 UDP 报 文 段 而 不 回 显 信息 。 
支持 : 只 要 udpcksum 非 零 ，Net/3 丢 弃 该 报 文 段 。 我 们 前 面 曾 提 到 ， 该 变量 同时 控制 发 
送 时 检验 和 的 产生 以 及 接收 检验 和 的 验证 。 如 果 它 等 于 0， 则 内 核对 收 到 的 非 零 检 验 和 
不 做 验证 。 

。 建 议 人 允许 发 送 程序 指定 是 否 需 要 计算 输出 报 文 段 的 检验 和 ， 默 认 操 作 必 须 为 需要 计算 
不 支持 : 应 用 程序 不 能 控制 UDP 检验 和 。 默 认 情 况 下 ，Net3 计 算 UDP 检 验 和 ， 除 非 内 
核 编译 时 定义 了 4.2BSD 的 兼容 功能 ， 或 者 系统 管理 员 通 过 sysct1 (8) 关 团 了 UDP 检验 
和 功能 。 

。 建 议 允 许 接 收 进程 指定 是 丢弃 收 到 的 不 带 检 验 和 的 UDP 报 文 段 (例如 ， 收 到 的 检验 和 等 
于 0)， 还 是 将 此 类 报 文 段 提交 给 应 用 进程 。 

不 支持 : 即使 接收 报 文 段 的 检验 和 字段 等 于 0， 也 会 被 提交 给 应 用 进程 。 

。 必须 回应 用 进程 提交 目的 IP 地 址 。 
支持 : 应 用 程序 可 以 调用 recvmsg， 并 指派 TP_RECVDSTADDR 插 口 选项 。 尽 管 在 图 23-25 
中 的 讨论 中 曾 指出 ， 如 果 目 的 地 址 是 广播 地 址 或 多 播 地 址 ，4.4BSD 不 遵守 此 规定 。 

* 必须 允许 应 用 进程 指派 发 送 UDP 报 文 段 时 所 使 用 的 本 地 IP 地 址 。 
支持 : 应 用 程序 调用 bind， 为 UDP 插 口 指派 本 地 IP 地 址 。 在 第 22.8 市 结尾 处 ， 我 们 已 经 
讨论 了 源 IP 地 址 和 输出 接口 I[P 地 址 间 的 差别 。Net/3 不 允许 应 用 程序 指派 输出 接口 一 一 
ip_output 负 责 根据 到 达 目 的 地 址 的 路 由 选取 本 地 输出 接口 。 

* 必须 允许 应 用 程序 指派 本 地 IP 地 址 的 通 配 地 址 。 
支持 : 如 果 bind 调 用 中 指派 的 IP 地 址 为 LPADDR ANY, in pcbconnect 将 根据 到 达 
目的 地 址 的 路 由 选取 本 地 IP 地 址 。 
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。 应 该 允许 应 用 程序 了 解 选 定 的 本 地 IP 地 址 。 

支持 : 应 用 程序 必须 调用 connect 。 如 果 插 口 未 建立 连接 ， 且 绑 定时 指派 的 是 本 地 通 
配 地 址 ， 在 该 插口 上 发 送 报 文 段 时 ，ip_output 选 择 输出 接口 ， 并 把 输出 接口 的 IP 地 
址 作为 源 地 址 。 但 在 sendto 返 回 前 ,，udp_output 结 尾 处 的 代码 会 把 PCB 中 的 
inp_laddz 成 员 变 量 ， 重 置 为 通 配 地 址 。 因 此 ，getsockname 将 返回 空 值 。 但 应 用 程 
序 可 以 调用 connect ， 把 UDP 插口 连接 到 指定 目的 地 ， 强 迫 in_pcbconnect 选 择 输 
出 接口 ， 并 把 接口 地 址 保存 到 PCB 中 。 应 用 程序 随后 调用 getsockname， 可 得 到 本 地 
接口 的 IP 地 址 。 

。 必须 丢弃 收 到 的 源 地 址 差错 (广播 地 址 或 多 播 地 址 ) 的 UDP 报 文 段 而 不 回 显 信息 。 

不 支持 : 即使 收 到 的 UDP 报 文 段 源 地 址 差错 ， 但 如 果 有 插口 绑 定 在 指派 的 目的 病 口 上 ， 
则 报 文 段 也 会 被 提交 给 该 插口 。 

。 必须 发送 有 效 的 IP 源 址 。 

支持 : 如 果 通 过 bind 指 派 本 地 IP 地 址 ，bind 会 检查 地 址 的 有 效 性 。 如 果 指 派 了 本 地 通 
配 地 址 ，ip_output 选 择 本 地 地 址 。 

。 必 须 实现 RFC 1122 第 3.4 节 定义 的 完整 的 IP 接 口 。 

ZWC.21 

* 必须 允许 应 用 进程 为 输出 报 文 段 指派 TITIL、TOS 和 了 PP 选项 。 

支持 : 应 用 程序 可 使 用 IP TTL, IP TOS 和 IP OPTIONS 插口 选项 。 

* 建议 回应 用 程序 提交 TOS。 

不 支持 : 应 用 程序 无 法 得 到 接收 报 文 段 IP 首 部 的 TOS 值 。 请 注意 ， 调 用 get sockopt， 
参数 为 ITP_TOS 时 得 到 的 返回 值 是 输出 报 文 段 ， 而 非 接收 报 文 段 的 TOS 值 。 接 收报 文 段 
的 TOS 对 udp_input 是 可 见 的 ,但 后 者 在 处 理 过 程 中 ， 将 它 与 整个 IP 首 部 一 起 丢弃 。 


C.11 TCP 的 需求 
本 市 总 结 了 RFC 1122 第 4.2.5 市 关于 TCP 功 能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需 求 的 实现 程度 。 
PSH 标 志 


。 建议 累积 用 户 发 送 的 不 带 PSH 标 志 的 数据 。 
部 分 支持 : Net/3 没 有 为 应 用 进程 提供 机 制 ， 能 够 在 调用 write 的 同时 指派 PSH 标 志 。 但 
Net/3 能 够 累积 用 户 在 多 次 write 操 作 中 发 送 的 数据 。 

。 建议 把 收 到 的 不 带 PSH 标 志 的 数据 放 入 队列 。 
不 支持 : 接收 报 文 段 中 是 否 带 有 PSH 标 志 不 会 影响 Net/3 的 处 理 。 接 收报 文 段 处 理 过 程 中 ， 
收 到 的 数据 都 放 入 插口 的 接收 队列 。 

e 发送 方 在 对 数据 打包 时 ， 应 该 合并 连续 的 PSH 标 志 。 
不 支持 。 

。 建议 在 write 调 用 中 指派 PSH 标 志 
不 支持 : 插口 API 不 提供 此 项 功能 。 

。 由 于 PSH 标 志 不 是 write 调 用 的 一 部 分 ， 必 须 防止 无 限期 地 缓存 数据 ， 且 必须 在 最 后 一 
个 缓存 报 文 段 中 置 位 PSH 标 志 。 
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支持 : 基于 Berkeley 的 系统 都 采用 此 方法 。 

。 建 议 向 应 用 程序 提交 收 到 的 PSH 标 志 。 

不 支持 : 播 口 API 不 提供 此 项 功能 。 

。 在 可 能 的 情况 下 ， 应 该 发 送 最 大 长 度 报 文 段 ， 以 提高 性 能 。 
支持 。 


窗口 


“必须 把 窗口 大 小 视 为 无 符号 整数 。 应 该 把 窗口 大 小 视 为 32 bit 数 值 。 
支持 : 图 24-13 中 的 所 有 窗口 大 小 的 数据 类 型 都 是 unsigned long, RFC 1323X T f 
口 大 小 选项 的 说 明 中 也 有 此 要 求 。 

* 不 允许 接收 方 缩小 窗口 。 
支持 : 详 见 图 26-29。 

* 发 送 方 必须 非常 灵活 ， 在 对 端 缩小 窗口 时 也 能 正常 运作 。 
支持 : 详 见 图 29-15。 

“建议 无 限期 关闭 提供 的 接收 窗口 。 
支持 。 

。 发送 方 必须 能 够 探测 零 窗 口 。 
支持 : 这 也 是 设置 持续 定时 器 的 目的 。 

* 在 窗口 因为 RTO 而 关闭 时 ， 应 该 发 送 第 一 次 零 窗口 探测 报 文 段 。 

不 支持 : Net/3 把 持续 定时 器 的 下 限 设 为 5 秒 ， 一 般 情况 下 都 大 于 RTO。 

。 应 该 线性 递增 连续 探测 报 文 段 间 的 时 间 间 隔 。 
支持 : 详 见 图 25-14。 

* 必须 允许 对 端 窗口 无 限期 地 关闭 。 
支持 : TCP 会 一 直 癌 关闭 窗口 发 送 探测 报 文 段 。 

。 不 人 允许 由 于 接收 方 一 直 发 送 零 窗口 通告 ， 发 送 方 就 超时 关闭 连接 。 
支持 。 


发 送 数据 


。 紧急 指针 必须 指向 紧急 数据 的 最 后 一 个 字 市 。 

不 支持 : 基于 伯克利 的 系统 都 将 紧急 指针 解释 为 指 癌 紧 急 数据 结束 后 的 第 一 个 字 证 。 

。 必须 支持 任何 长 度 的 紧急 数据 。 

支持 : 条 件 是 修订 了 习题 26.6 中 讨论 的 差错 。 

。 必 须 通知 接收 进程 : (1)TCP 收 到 紧急 指针 ， 并 且 没 有 正 等 待 处 理 的 紧急 数据 (2) 紧急 
指针 出 现在 数据 流 之 前 。 

支持 : 详 见 图 29-17。 

。 必须 允许 应 用 进程 以 某 种 方式 确定 剩余 的 紧急 数据 量 ， 或 者 至 少 能 确定 是 否 还 有 需要 读 
取 的 紧急 数据 。 

支持 : 这 就 是 设置 带 外 数据 标志 SIOCATMARK ioct1 的 目的 。 
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TCP 选 项 
. 必须 能 够 接收 任何 报 文 段 中 的 TCP 选 项 。 
支持 。 


* 必须 忽略 所 有 不 支持 的 选项 。 

支持 : 详 见 第 28.3 证 。 
* 必须 处 理 非法 的 选项 长 度 。 

支持 : 详 见 第 28.3 市 。 
。 必须 能 够 发 送 并 接收 MSS 选 项 。 

支持 : 图 28-10 中 的 代码 处 理 收 到 的 MSS 选 项 ， 图 26-23 中 的 代码 总 是 在 SYN 中 发 送 MSS 
选项 。 
* 如果 接收 MSS 不 等 于 536， 则 应 该 在 响应 SYN 报 文 段 中 发 送 MSS 选 项 ， 建 议 在 所 有 SYN 
报 文 段 中 发 送 MSS 选 项 。 

支持 : 前 面 已 提 到 ，Net/3 在 所 有 SYN 报 文 段 中 发 送 MSS 选 项 。 
"如果 收 到 的 SYN 报 文 段 中 未 携带 MSS 选 项 ， 必 须 假定 MSS 默 认 值 等 于 536。 

不 支持 : MSS 的 默认 值 等 于 512， 而 非 536。 


这 可 能 是 一 个 历史 遗留 问题 。 因 为 VAX 系 统 物理 存储 器 页 大 小 为 S12 字 节 ， 而 
trailer 协 议 只 能 处 理 长 度 为 $12 倍 数 的 数据 。 
。 必 须 计 算 “ 有 效 发 送 MSS 。 
支持 : 详 见 27.5 市 。 


TCP 检 验 和 


。 必 须 在 输出 报 文 段 中 生成 TCP 检 验 和 ， 必 须 验 证 收 到 的 检验 和 。 
支持 : Net/3 支 持 TCP 检 验 和 的 生成 和 验证 。 


初始 序号 选择 


"必须 使 用 RFC 793 中 规定 的 时 钟 驱 动 的 选择 机 制 。 
不 支持 : RFC 793 中 规定 的 时 钟 ， 每 半 秒 递增 125 000， 而 Net/3 ISN( 全 局 变量 tcp iss) 
每 半 秒 递增 64 000， 约 为 规定 速率 的 一 半 。 


打开 连接 


* 必须 支持 同时 打开 。 
支持 : 尽管 基于 Berkeley 的 系统 ，4.4BSD 以 前 的 版 本 ， 不 支持 此 功能 。 第 28.9 节 中 讨 
论 了 这 个 问题 。 

。 必 须 能 区 分 是 从 LISTEN 状 态 ， 还 是 从 SYN_SENT 状 态 变迁 到 SYN_RCVD 状 态 。 
支持 : 结果 相同 ， 方 法 不 同 。 提 出 此 需求 的 目的 是 允许 被 动 打开 的 一 方 ， 在 收 到 RST 时 
能 返回 到 LISTEN 状 态 ( 如 图 24-15 所 示 )， 而 主动 打开 的 一 方 ， 如 果 在 SYN_RCVD 状 态 时 
收 到 RST， 应 被 强迫 终止 。 如 图 28-36 所 示 。 

。 被 动 打开 必须 不 影响 系统 中 已 建立 的 连接 。 
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支持 。 
* 必须 允许 绑 定 在 同一 本 地 端口 上 的 监 折 插口 和 另 一 插口 同时 处 于 SYN_SENT 状态 或 
SYN_RCVD 状 态 。 
支持 : 提出 本 需求 的 目的 在 于 允许 应 用 进程 能 同时 接受 多 个 连接 请 求 。Berkeley 系 统 采 
用 的 方法 是 ， 收 到 SYN 时 ， 系 统 根 据 处 于 LISTEN 状 态 的 插口 创建 一 条 完全 相同 的 连接 。 
。 如果 在 多 接口 主机 上 ， 执 行 主动 打 开 的 应 用 进程 没有 指派 产 IP 地 址 ， 则 必须 要 求 IP 层 选 
择 一 个 本 地 IP 地 址 作为 源 IP 地 址 。 
支持 : Hin pcbconnect 实 现 。 
。 同一 连接 上 发 送 的 所 有 报 文 段 必须 使 用 相同 的 源 IP 地 址 。 
支持 : 只 要 ijn_pcbconnect 选 定 了 源 IP 地 址 ， 就 不 会 再 改变 。 
* 执行 主动 打开 时 ， 对 闻 地 址 不 允许 是 广播 地 址 或 多 播 地 址 。 
部 分 支持 : TCP 不 会 癌 广 播 地 址 发 送 报 文 段 ， 因 为 图 26-32 中 调用 ip_output 时 ， 不 会 
目 定 SO_BRORADCRAST 选 项 。 但 Net3 人 允许 应 用 程序 试图 与 多 播 地 址 建立 连接 。 
。 必须 忽略 收 到 无 效 源 地 址 的 SYN 报 文 段 。 
支持 : 图 28-16 中 的 代码 检查 无 效 源 地 址 。 

关闭 连接 
。 应 该 允许 RST 携 带 数 据 。 
不 支持 : 图 28-36 中 对 RST 的 处 理 ， 结 束 时 跳 转 到 drop， 上 略 过 了 图 29-22 中 对 报 文 段 数 据 
的 所 有 处 理 。 
* 必须 通知 应 用 进程 对 端 是 正 前 关闭 连接 (例如 ， 发 送 了 FIN)， 还 是 通过 RST 异 稍 中 止 了 
连接 
支持 : 如 果 收 到 FIN，read 系 统 调用 返回 0( 文 件 结束 );， 如 果 收 到 RST，read 系 统 调用 
返回 一 1 ， 差 错 代 码 为 ECONNRESET。 
。 建议 实现 半 关 闭 。 
支持 : 应 用 进程 调用 shutdown,， 令 第 二 个 参数 等 于 1， 可 发 送 FIN。 此 后 ， 应 用 进程 仍 
能 从 连接 读 取 数据 。 
。 如 末 应 用 进程 完全 关闭 了 连接 (不 是 半 关 闭 )， 但 接收 数据 还 没有 被 读 取 ， 或 者 关闭 操作 
后 ， 又 有 新 的 数据 到 达 ， 则 TCP 应 该 发 送 RST， 说 明 有 数据 丢失 。 
部 分 支持 : 如 果 应 用 进程 调用 close， 且 没有 读 取 插口 接收 缓存 中 的 数据 ， 则 TCP 不 发 
送 RST。 但 如 条 插口 被 关闭 后 ， 又 有 新 的 数据 到 达 ， 则 TCP 将 发 送 RST 报 文 段 。 
* 必须 在 TIME_WAIT 状 态 等 待 2MSL 。 
支持 : 尽管 Net/3 MSL 等 于 30 秒 ， 远 小 于 RFC 793 中 建议 的 2 分 钟 的 时 间 长 度 。 
。 如 果 在 TIME_WAIT 状 态 收 到 对 端 新 发 送 的 SYN， 应 允许 直接 建立 新 连接 。 
支持 : 详 见 图 28-28。 


重 传 


。 必 须 实 现 Van Jacobson 的 慢 起 动 和 拥塞 避免 算法 。 
支持 。 
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。 如 宁 重 传 报 文 段 与 原始 报 文 段 相 同 ， 建 议 使 用 同一 个 卫 标 识 符 。 

不 支持 : ip_output 把 全 局 变量 ip_idq 的 当前 值 填 入 卫 数 据 报 的 ID 字段 。 每 发 送 一 个 
IP 数 据 报 ，ip_idq 加 1。TCP 不 负责 耻 标 识 符 的 赋值 。 

。 必 须 实 现 Jacobson 的 RTO 算 法 和 选取 的 RTT 测 量 值 Karn 算 法 。 

支持 : 请 注意 ， 如 果 采 用 RFC 1323 定义 的 时 间 惟 选项 ， 重 传 报 文 段 二 义 性 将 不 再 存在 ， 
Karn 算 法 的 一 半 问 题 也 解决 了。 在 图 29-6 中 我 们 已 讨论 过 这 个 问题 。 
。 对 于 连续 的 RIO 值 ， 必 须 有 指数 退 避 机 制 。 

支持 : 详 见 图 25-22。 
。SYN 报 文 段 的 重 传 算 法 应 该 与 数据 报 文 段 的 重 传 算法 相同 。 

支持 : 详 见 图 25-16。 
。 应 该 初始 化 往返 时 间 估 值 参 数 ， 保 证 计算 得 到 的 RTO 的 初始 值 为 3 秒 。 

不 支持 : tcp_newtcpcb 计 算得 到 的 t_rxtcur 和 初始 值 等 于 6 秒 。 详 见 图 25-16。 
。RIO 的 下 限 应 为 几 分 之 一 秒 ， 上 限 应 等 于 2MSL。 

不 支持 : RTO 的 下 限 设 为 1 秒 ， 上 限 等 于 64 秒 (图 25-3)。 


生成 ACK 


。 应 该 把 乱 序 报 文 段 放 人 重组 队列 。 

支持 : tcp_reass 实 现 此 功能 。 

。 发 送 ACK 之 前 ， 必 须 先 处 理 队 列 中 的 所 有 报 文 段 。 

支持 : 但 只 适用 于 顺序 到 达 的 报 文 段 。ipintz 处 理 卫 接收 队列 中 的 数据 报 ， 如 采 携 带 
的 是 ITCP 报 文 段 ， 则 调用 tcp_input。 对 于 顺序 到 达 的 报 文 段 ，tcp_input 设 定 延 到 
ACK 标 志 ， 控 制 返 回 ijpintr。 如 果 IP 输 入 队列 中 还 有 其 他 携带 TCP 报 文 段 的 数据 报 ， 
ipintr 依 次 调用 tcp_input。 只 有 IP 输 入 队列 中 的 数据 报 全 部 处 理 完 毕 后 ， 才 能 调用 
tcp_fasttimo 生 成 延迟 ACK， 确认 tcp_input 处 理 过 的 全 部 报 文 段 中 最 高 的 数据 字 
TF. 

处 理 乱 序 报 文 段 遇 到 的 问题 是 : 把 控制 返回 给 ijpintr 之 前 ，tcp_input 会 直接 调用 
tcp_output ， 生 成 对 乱 序 报 文 段 的 确认 。 如 果 此 时 IP 输 入 队列 中 还 有 剩余 报 文 段 ， 它 
们 与 当前 处 理 的 乱 序 报 文 段 合 在 一 起 完全 有 可 能 组 成 一 个 顺序 数据 序列 ， 但 它们 只 能 等 
到 立即 ACK 发 送 完 毕 后 才 会 被 处 理 。 

。 建议 立 即 发 送 乱 序 报 文 段 的 ACK。 

支持 : 这 也 是 快速 重 传 和 快速 恢复 算法 的 要 求 (29.4-)。 

。 应 该 实现 延迟 ACK， 且 延迟 时 间 应 小 于 0.5 秒 。 

支持 : tcp fasttimo 每 隔 200 ms， 检 查 一 次 TF DELACK 标 志 。 

。 每 隔 一 个 报 文 段 ， 至 少 应 该 发 送 一 次 ACK。 

支持 : 图 26-9 中 的 代码 每 隔 一 个 报 文 段 生 成 一 个 ACK。 我 们 也 讨论 过 ， 只 有 当 接 收 数据 
的 应 用 进程 在 数据 到 达 时 立即 读 取 ， 才 会 出 现 这 种 处 理 过 程 。 因 为 只 有 在 PRU_RCVD 的 
处 理 代码 中 ， 才 会 调用 tcp_output， 每 隔 一 个 报 文 段 发 送 一 次 ACK。 

« 接收 方 必须 实现 糊涂 窗口 综合 征 避 免 算法 。 

支持 : 详 见 图 26-29。 
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发 送 数据 


。TCP 报 文 段 中 的 TTL 值 必须 是 可 配置 的 。 
支持 : 上 tcp_newtcpcb 初 始 化 TTL 为 64(IPDEEFTTL)， 但 应 用 进程 可 通过 IP_TTL 插口 选 
项 修改 该 值 。 
。 发 送 方 必 须 实 现 糊涂 窗口 综合 征 避免 算法 。 
xti: 详 见 图 26-8。 
。 应 该 实现 Nagle 算 法 。 
支持 : 详 见 图 26-8。 
。 必须 允许 应 用 进程 对 于 指定 连接 禁止 Nagle 算 法 。 
支持 : 通过 TCP NODELAY 插 口 选项 。 


连接 失败 


* 如果 某 报 文 段 的 重 传 次 数 超过 指定 的 门限 R1， 必 须 向 IP 层 告警 。 

支持 : 图 25-26 中 ，R1 等 于 。 如 果 重 传 次 数 超过 4， 则 调用 in_losing。 
。 如 宁 某 报 文 段 的 重 传 次 数 超过 R2， 必 须 关 闭 连 接 。 

支持 : R2 等 于 12( 图 25-26)。 

* 必须 允许 应 用 进程 配置 R2 的 值 。 

不 支持 : 在 图 25-26 中 ，R2 的 值 是 定 死 的 。 

。 如 来 重 传 次 数 超过 R1， 而 小 于 R2， 应 该 通知 应 用 进程 。 

不 支持 。 

。R1 的 默认 值 最 小 应 该 为 3 次 ，R2 最 小 应 该 为 100 秒 。 

支持 : R1 等 于 4， 最 小 RIO 等 于 1 秒 。tcp backoff 数 组 (25.9 节 ) 确 保 R2 的 最 小 值 大 于 
500$, 
。SYN 报 文 段 重 传 的 处 理 方 式 必 须 与 数据 报 文 段 重 传 的 处 理 方 式 相 同 。 
支持 : 但 一 般 情 况 下 ，SYN 重 传 次 数 不 会 超过 R1( 图 25-16)。 
。 对 于 SYN 报 文 段 ，R2 的 最 小 值 必 须 设 为 3 分 钟 。 

不 支持 : 连接 建立 定时 器 把 SYN 的 R2 限 定 为 75 秒 (图 25-16)。 


连接 探测 报 文 段 


。 建 议 实现 连接 探测 报 文 段 。 

支持 : Net/3 提 供 此 功能 。 

* 必须 允许 应 用 进程 打开 或 关闭 保 活 功能 ， 默 认 值 为 关闭 。 

支持 : 默认 值 为 关闭 。 应 用 进程 必须 通过 SO_KEEPALIVE 插 口 选 项 打开 此 功能 。 

。 只 有 当 连 接 空 亲 时 间 超 过 限制 时 ， 才 人 允许 发 送 连接 探测 报 文 段 。 

支持 。 

。 必须 允许 配置 保 活 的 时 间 间 隔 ， 默 认 值 必须 大 于 2 小 时 。 

部 分 支持 : 发 送 连接 探测 报 文 段 前 的 时 间 间 隔 很 难 配置 ， 但 默认 值 等 于 2 小 时 。 如 果 上 默 
认 的 空间 时 间 间 隔 被 更 改 (修改 全 局 变量 tcp_keepidle)， 它 会 影响 主机 上 设置 了 保 活 
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选项 的 所 有 用 户 一 一 无 法 如 许多 用 户 所 希望 的 ， 为 每 条 连接 单独 进行 配置 。 
* 即 使 对 端 未 啊 应 特定 探测 报 文 段 ， 不 允许 立即 认为 连接 已 中 断 。 
支持 : 在 确认 连接 中 断 之 前 ，Net/3 系 统 会 发 送 9 个 探测 报 文 段 。 


IP 选 项 


« 必须 忽略 接收 报 文 段 中 不 支持 的 IP 选 项 。 
支持 : IP 层 实现 此 功能 。 

。 建 议 支 持 接收 报 文 段 中 的 时 间 惟 选项 和 记录 路 由 选项 。 

不 文 持 : Net/3 只 啊 应 ICMP 报 文中 的 这 些 选 项 ， 把 这 些 选 项 反 转 给 发 送 方 
(icmp_reflect)。tcp input 调 用 ip stripoptions, EAMA Ws BJIPc I, 
如 图 28-2 所 示 。 

。 主动 打开 连接 时 ， 应 用 进程 必须 能 够 指派 源 路 由 ， 而 且 该 路 由 应 该 优先 于 在 该 连接 上 收 
到 的 源 路 由 。 
支持 : 应 用 进程 可 通过 IP_OPTIONS 插 口 选 项 ， 指 派 源 路 由 。 如 果 连 接 是 主动 打开 的 ， 
tcp_input 不 会 查看 接收 报 文 段 中 的 源 路 由 。 

。 如 果 连 接 是 被 动 打开 ， 且 发 送 报 文 段 时 ， 必 须 使 用 收 到 的 源 路 由 的 逆转 路 由 ， 则 必须 保 
存 连接 上 收 到 的 源 路 由 。 如 果 后 续 报 文 段 中 携带 的 源 路 由 与 当前 保存 的 路 由 不 同 ， 新 路 
由 将 取代 原 有 路 由 。 

部 分 支持 : 只 有 在 监听 插口 上 收 到 SYN 时 ， 图 28-7 中 的 代码 才 会 调用 ip_srcroute。 
如 果 后 续 报 文 段 携带 了 新 路 由 ， 则 被 忽略 。 


接收 IP 层 提交 的 ICMP 报 文 


* 收 到 ICMP 源 站 抑制 报 文 段 后 ， 应 该 执行 慢 起 动 。 

支持 : tcp_ctlinput 调 用 tcp quench 函 数 。 

e 收 到 ICMP 网 络 不 可 达 、 主 机 不 可 达 或 源 路 由 失败 的 报 文 段 后 ， 必 须 禁止 TCP 终 止 连接 ， 
并 应 该 通知 应 用 进程 。 

部 分 支持 : 如 图 27-12 所 示 ，Net/3 完 全 忽略 已 建立 连接 上 收 到 的 网 络 不 可 达 和 主机 不 可 
达 报 文 段 。 

* 收 到 ICMP 协 议 不 可 达 、 端 口 不 可 达 和 需要 分 片 但 DF 置 位 的 报 文 段 后 ， 应 该 中 断 当 前 连 
接 。 

不 文 持 : tcp_notify 只 在 t_softerror 中 记录 这 些 ICMP 差 错 。 如 果 连 接 最 终 被 丢 
弃 ， 则 向 应 用 进程 报告 。 

* 收 到 处 理 数据 报 超 时 和 数据 报 参 数 错 的 报 文 段 后 ， 应 该 采用 与 前 述 网 络 不 可 达 和 主机 不 
可 达 报 文 段 同样 的 处 理 方式 。 

支持 : tcp_notify 只 在 t_softerror 中 记录 ICMP 数 据 报 参数 错 。tcp ctlinput 
忽略 ICMP 数 据 报 超时 报 文 段 。 两 种 报 文 段 都 不 会 导致 连接 被 丢弃 。 


应 用 程序 编程 接口 
* 必须 提供 采种 方式 ， 辐 应 用 进程 报告 软 差 错 ， 一 般 应 通过 异步 方式 。 
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不 支持 : 连接 被 丢弃 上 时， 通过 返回 值 向 应 用 进程 报告 软 差 错 。 

。 必 须 允 许 应 用 进程 为 连接 上 发 送 的 报 文 段 指派 TOS。 应 该 允许 应 用 进程 在 连接 的 生存 期 
内 ， 动 态 更 改 TOS。 

支持 : 应 用 程序 通过 IP_TOS 选 项 可 完成 上 述 功 能 。 

。 建议 同 应 用 进程 提交 最 近 收 到 的 TOS 值 。 

不 支持 : 揪 口 API 不 提供 此 项 功能 。 调 用 getsockopt ， 参 数 为 IP_TOS ， 只 能 返回 用 
于 发 送 的 TOS 当 前 值 。 它 无 法 返回 最 近 收 到 的 TOS 值 。 

。 建 议 实现 “flush ”调用 。 

不 支持 : TCP 尽 可 能 快 地 发 送 应 用 进程 数据 。 

。 必须 允许 应 用 进程 在 主动 打开 或 被 动 打开 之 前 ， 指 派 本 地 IP 地 址 。 

支持 : 应 用 进程 可 在 调用 connect 或 accept 之 前 ， 调 用 binda。 


参考 文献 


所 有 的 RFC 文 件 都 可 以 通过 电子 邮件 或 者 用 匿名 FTP 通 过 Internet 免 费 获 得 ， 在 附录 B 中 对 此 
做 了 说 明 。 

通过 URL (统一 资源 定位 符 ， 附 录 B)、 作 者 随时 可 以 找到 本 参考 书目 中 文章 和 报告 的 电子 
副本 。 


Almquist, P. 1992. “Type of Service in the Internet Protocol Suite," RFC 1349, 28 pages (July). 
Almquist, P., and Kastenholz, F. J. 1994. "Towards Requirements for IP Routers," RFC 1716, 
186 pages (Nov.). 


此 RFC 是 取代 RFC 1009 [Braden and Postel 1987]65 + [8] 7 Jf, 
Auerbach, K. 1994. "Max IP Packet Length and MTU," Message-ID «karl.3.000A4DD7 


(2 cavebear.com», Usenet, comp.protocols.tcp-ip Newsgroup (July). 
Boggs, D. R. 1982. "Internet Broadcasting," Xerox PARC CSL-83-3, Stanford University, Palo 
Alto, Calif. (Jan.). 
Braden, R. T., ed. 1989a. "Requirements for Internet Hosts—Communication Layers," RFC 
1122, 116 pages (Oct.). 
Host Requirements REFC 的 前 半 部 分 。 这 部 分 包括 链 路 层 、IP、TCP 和 UDP。 
Braden, R. T., ed. 1989b. "Requirements for Internet Hosts 一 Application and Support,” RFC 
1123, 98 pages (Oct.). 
Host Requirements RFC 的 后 半 部 分 。 这 部 分 包括 Telnet、FTP、TFTP、SMTP 和 
DNS, 


Braden, R. T. 1989c. "Perspective on the Host Requirements RFCs,” RFC 1127, 20 pages 
(Oct.). 


对 开发 制定 Host Requirements RFC 的 IETF 工 作 组 的 讨论 和 结论 的 一 个 非 正 式 总 结 。 
Braden, R. T. 1992. "TIME-WAIT Assassination Hazards in TCP,” RFC 1337, 11 pages (May). 
说 明 在 TIME_WAIT 状 态 时 接收 一 个 RST 是 如 何 能 导致 问题 的 。 
Braden, R. T. 1993. “TCP Extensions for High Performance: An Update," Internet Draft, 10 
pages (June). 
这 是 一 个 对 RFC 1323 [Jacobson, Braden, and Borman 1992] $7 $ 34 x: £F, 


Braden, R. T. 1994. "T/TCP—TCP Extensions for Transactions, Functional Specification," RFC 
1644, 38 pages (July). 


896 TCP/IP;EÉg 3X2: 实现 


Braden, R. T., Borman, D. A., and Partridge, C. 1988. "Computing the Internet Checksum,” 
RFC 1071, 24 pages (Sept.). 


提供 万 法 和 工法 来 计算 IP、ICMP、IGMP、UDP 和 TCP 中 使 用 的 检验 和 。 
Braden, R. T., and Postel, J. B. 1987. "Requirements for Internet Gateways," RFC 1009, 55 
pages (June). 
等 同 于 路 由 器 的 Host Requirements RFC, X£RFCZERFC 1716 [Almquist and 
Kastenholz 1994] 所 取代 , 
Brakmo, L. S., O Malley, S. W., and Peterson, L. L. 1994. “TCP Vegas: New Techniques for 


Congestion Detection and Avoidance," Computer Communication Review, vol. 24, no. 4, pp. 24 - 35 
(Oct.). 


说 明了 一 些 对 4.3BSD Reno TCP 实 现 的 改进 ， 这 些 改 进 用 来 提高 吞吐 量 和 减少 
重 传 。 


ftp://ftp.cs.arizona.edu/xkernel/Papers/vegas.ps 


Carlson, J. 1993. “Re: Bug in Many Versions of TCP,” Message-ID <1993Jull2.130854.26176 
@xylogics.com>, Usenet, comp.protocols.tcp-ip Newsgroup (July). 

Casner, S., Frequently Asked Questions (FAQ) on the Multicast Backbone (MBONE), 1993. 

ftp://ftp.isi.edu/mbone/faq.txt 

Cheswick, W. R., and Bellovin, S. M. 1994. Firewalls and Internet Security: Repelling the Wily 
Hacker. Addison-Wesley, Reading, Mass. 

说 明了 如 何 去 建 立 和 管理 一 个 防火 墙 网 关 ， 还 涉及 了 安全 问题 。 

Clark, D. D. 1982. “Modularity and Efficiency in Protocol Implementation,” RFC 817, 26 pages 
(July). 

Comer, D. E., and Lin, J. C. 1994. “TCP Buffering and Performance Over an ATM Network," 
Purdue Technical Report CSD-TR 94-026, Purdue University, West Lafayette, In. (Mar.). 

Comer, D. E., and Stevens, D. L. 1993. Internetworking with TCP/IP: Vol. III: Client—Server 
Programming and Applications, BSD Socket Version. Prentice-Hall, Englewood Cliffs, N. J. 

Croft, W., and Gilmore, J. 1985. “Bootstrap Protocol (BOOTP)," RFC 951, 12 pages (Sept.). 

Crowcroft, J., Wakeman, I., Wang, Z., and Sirovica, D. 1992. “Is Layering Harmful?," IEEE 
Network, vol. 6, no. 1, pp. 20 - 24 (Jan.). 


这 篇 文章 中 遗 泌 的 7 个 图 放 在 下 一 期 中 : vol. 6, no. 2 (March), 


Dalton, C., Watson, G., Banks, D., Calamvokis, C., Edwards, A., and Lumley, J. 1993. 
“Afterburner,” IEEE Network, vol. 7, no. 4, pp. 36 - 43 (July). 


说 明了 如 何 通过 减少 数据 复制 的 执行 次 数 来 提高 TCP 的 速度 ， 并 介绍 了 一 个 支持 
这 种 设计 的 专用 接口 卡 。 l 
Deering, S. E. 1989. “Host Extensions for IP Multicasting,” RFC 1112, 17 pages (Aug.). 


Ax 897 


IP 多 播 和 IGMP 的 规范 。 


Deering, S. E., ed. 1991a. “ICMP Router Discovery Messages," RFC 1256, 19 pages (Sept.). 
Deering, S. E. 1991b. “Multicast Routing in a Datagram Internetwork," STAN-CS-92-1415, 
Stanford University, Palo Alto, Calif. (Dec.). 


ftp://gregorio.stanford.edu/vmtp-ip/sdthesis.partl.ps.Z 


Deering, S. E., and Cheriton, D. P. 1990. “Multicast Routing in Datagram Internetworks and 

Extended LANs," ACM Transactions on Computer Systems, vol. 8, no. 2, pp. 85 - 110 (May). 
对 扩展 支持 多 播 的 公共 选 路 技术 的 建议 。 

Deering, S., Estrin, D., Farinacci, D., Jacobson, V., Liu, C., and Wei, L. 1994. "An Architecture 
for Wide-Area Multicast Routing," Computer Communication Review, vol. 24, no. 4, pp. 126 - 135 
(Qct.). 

Droms, R. 1993. "Dynamic Host Configuration Protocol," RFC 1541, 39 pages (Oct.). 

Finlayson, R., Mann, T., Mogul, J. C., and Theimer, M. 1984. "A Reverse Address Resolution 
Protocol,” RFC 903, 4 pages (June). 

Floyd, S. 1994. Private Communication. 

Forgie, J. 1979. “ST—A Proposed Internet Stream Protocol," IEN 119, MIT Lincoln Laboratory 
(Sept.). 

Fuller, V., Li, T., Yu, J. Y., and Varadhan, K. 1993. “Classless Inter-Domain Routing (CIDR): An 
Address Assignment and Aggregation Strategy," RFC 1519, 24 pages (Sept.). 

Hornig, C. 1984. "Standard for the Transmission of IP Datagrams over Ethernet Networks," 
RFC 894, 3 pages (Apr.). 

Hutchinson, N. C., and Peterson, L. L. 1991. "The x-Kernel: An Architecture for Implementing 
Network Protocols," IEEE Transactions on Software Engineering, vol. 17, no. 1, pp. 64 - 76 (Jan.). 


ftp://ftp.cs.arizona.edu/xkernel/Papers/architecture.ps 


Itano, W. M., and Ramsey, N. F. 1993. "Accurate Measurement of Time," Scientific American, 
vol. 269, p. 56 (July). 


概述 了 精确 计时 的 历史 的 和 当前 的 方法 。 还 简短 讨论 了 国际 时 间 尺 度 ， 包 括 国 际 
原子 时 间 (TAI) 和 协调 全 球 时 间 (UTC)， 
Jacobson, V. 1988a. “Some Interim Notes on the BSD Network Speedup, Message-ID 
<8807200426.AA01221 @helios.ee.lbl.gov>, Usenet, comp.protocols.tcp-ip Netwsgroup (July). 
Jacobson, V. 1988b. “Congestion Avoidance and Control, Computer Communication Review, 
vol. 18, no. 4, pp. 314 - 329 (Aug.). 
一 个 说 明 TCP 慢 启动 和 拥塞 避免 算法 的 典型 文章 。 
ftp://ftp.ee.1bl .gov/congavoid.ps.2 


Jacobson, V. 1990a. “Compressing TCP/IP Headers for Low-Speed Serial Links," RFC 1144, 43 
pages (Feb.). 


898 TCP/IPiÉÉR %2: 实现 


说 明 CSLIP， 一 个 压缩 了 TCP 和 了 首部 的 SLIP 版 本 。 
Jacobson, V. 1990b. “4BSD TCP Header Prediction," Computer Communication Review, vol. 
20, no. 2, pp. 13- 15 (Apr). 
Jacobson, V. 1990c. "Modified TCP Congestion Avoidance Algorithm," April 30, 1990, 
end2end-interest mailing list (Apr.). 
说 明快 速 重 传 和 快速 恢复 算法 。 
ftp://ftp.isi.edu/end2end/end2end-interest-1990.mail 
Jacobson, V. 1990d. "Berkeley TCP Evolution from 4.3-Tahoe to 4.3-Reno," Proceedings of the 
Eighteenth Internet Engineering Task Force, p. 365 (Sept.), University of British Columbia, Vancouver, 
Bm c 
Jacobson, V. 1993. "Some Design Issues for High-Speed Networks," Nertworkshop ‘93 (Nov.), 


Melbourne, Australia. 
讨论 了 21 项 开销 。 
ftp://ftp.ee.lbl.gov/papers/vj-nws93-1.ps.Z 
Jacobson, V., and Braden, R. T. 1988. “TCP Extensions for Long-Delay Paths," RFC 1072, 16 
pages (Oct.). 
说 明 TCP 的 可 选择 确认 选项 和 反射 选项 。 在 新 近 的 RFC 1323 中 ， 前 者 被 删除 了 ， 
而 后 者 被 时 间 稚 所 代替 。 
Jacobson, V., Braden, R. T., and Borman, D. A. 1992. “TCP Extensions for High Performance," 
RFC 1323, 37 pages (May). 
说 明 窗 口 刻度 选项 、 时 间 稚 选项 和 PAWS 和 算法， 以 及 需要 这 些 修 改 的 原因 。 
[Braden 1993] 更 新 了 此 REFC。 
Jain, R., and Routhier, S. A. 1986. "Packet Trains: Measurements and a New Model for 
Computer Network Traffic," IEEE Journal on Selected Areas in Communications, vol. 4, pp. 1162 - 
1167. 


Karels, M. J., and McKusick, M. K. 1986. "Network Performance and Management with 4.3BSD 
and IP/TCP,” Proceedings of the 1986 Summer USENIX Conference, pp. 182 - 188, Atlanta, Ga. 


说 明 从 4.2BSD 到 4.3BSD 中 关于 TCP/IP 的 变动 。 


Karn, P., and Partridge, C. 1987. “Improving Round-Trip Time Estimates in Reliable Transport 


Protocols," Computer Communication Review, vol. 17, no. 5, pp. 2 -7 (Aug.). 
处 理 重 传 的 报 文 段 的 重 传 超时 Karn 算 法 的 细节 。 
ftp://sics.se/users/craig/karn-partridge.ps 


Kay, J., and Pasquale, J. 1993. "The Importance of Non-Data Touching Processing Overheads in 
TCP/IP,” Computer Communication Review, vol. 23, no. 4, pp. 259 - 268 (Sept.). 
Kent, C. A., and Mogul, J. C. 1987. "Fragmentation Considered Harmful," Computer 


Ax OX AX 899 


Communication Review, vol. 17, no. 5, pp. 390 - 401 (Aug.). 
Kernighan, B. W., and Plauger, P. J. 1976. Software Tools. Addison-Wesley, Reading, Mass. 
Krol, E. 1994. The Whole Internet, Second Edition. O'Reilly & Associates, Sebastopol, Calif. 


对 Internet、 公 共 Internet 应 用 和 Internet 上 的 各 种 可 用 资源 的 一 个 介绍 。 


Krol, E., and Hoffman, E. 1993. “FYI on “What is the Internet?' ," RFC 1462, 11 pages 
(May). 

Lanciani, D. 1993. "Re: Bug in Many Versions of TCP,” Message-ID «19937u110.015938.15951 
(2burrhus.harvard.edu», Usenet, comp.protocols.tcp-ip Newsgroup (July). 

Leffler, S. J., McKusick, M. K., Karels, M. J., and Quarterman, J. S. 1989. The Design and 
Implementation of the 4.3BSD UNIX Operating System. Addison-Wesley, Reading, Mass. 


一 本 完全 讲解 4.3BSD Unix 系 统 的 书 。 这 本 书 说 明 的 是 4.3BSD 的 Tahoe 版 。 


Lynch, D. C. 1993. "Historical Perspective," in Internet System Handbook, eds. D. C. Lynch and 
M. T. Rose, pp. 3-14. Addison-Wesley, Reading, Mass. 


对 Internet 和 它 的 前 身 ARPANET 的 历史 的 概述 。 


Mallory, T., and Kullberg, A. 1990. “Incremental Updating of the Internet Checksum,” RFC 
1141, 2 pages (Jan.). 


此 RFC 被 RFC 1624 [Rijsinghani 1994] $ $7 , 


Mano, M. M. 1993. Computer System Architecture, Third Edition. Prentice-Hall, Englewood 
Cliffs, N. J. 

McCanne, S., and Jacobson, V. 1993. "The BSD Packet Filter: A New Architecture for User- 
Level Packet Capture," Proceedings of the 1993 Winter USENIX Conference, pp. 259 - 269, San 
Diego, Calif. 


对 BSD 分 组 过 滤器 (BPF) 做 了 详细 的 说 明 并 同 Sun 公 司 的 网 络 接口 分 接头 (NIT) 
进行 了 比较 。 
ftp://ftp.ee.lbl.gov/papers/bpf-usenix93.ps.Z 
McCloghrie, K., and Farinacci, D. 1994a. “Internet Group Management Protocol MIB," Internet 
Draft, 12 pages (Jul.). 
McCloghrie, K., and Farinacci, D. 1994b. “IP Multicast Routing MIB," Internet Draft, 15 pages 
(Jul.). 
McCloghrie, K., and Rose, M. T. 1991. "Management Information Base for Network 
Management of TCP/IP-based Internets: MIB-II， RFC 1213 (Mar.). 
McGregor, G. 1992. “PPP Internet Protocol Control Protocol (IPCP)," RFC 1332, 12 pages 
(May). 
McKenney, P. E., and Dove, K. F. 1992. "Efficient Demultiplexing of Incoming TCP Packets," 
Computer Communication Review, vol. 22, no. 4, pp. 269 - 279 (Oct.). 


Mogul, J. C. 1991. "Network Locality at the Scale of Processes," Computer Communication 


900 TCP/IPzTER 4&2: 实现 


Review, vol. 21, no. 4, pp. 273 - 284 (Sept.). 
Mogul, J. C. 1993. "IP Network Performance," in /nternet System Handbook, eds. D. C. Lynch 
and M. T. Rose, pp. 575 - 675. Addison-Wesley, Reading, Mass. 


包括 很 多 Internet 协 议 方面 用 来 获得 最 佳 性 能 的 论题 。 


Mogul, J. C., and Deering, S. E. 1990. "Path MTU Discovery," RFC 1191, 19 pages (Apr.). 

Mogul, J. C., and Postel, J. B. 1985. "Internet Standard Subnetting Procedure," RFC 950, 18 
pages (Aug.). 

Moy, J. 1994. “Multicast Extensions to OSPF,” RFC 1584, 102 pages (Mar.). 

Olivier, G. 1994. "What is the Diameter of the Internet?," Message-ID «1994Jan22.094832 
(? mines.u-nancy.fr», Usenet, comp.unix.wizards Newsgroup (Jan.). 

Partridge, C. 1987. "Implementing the Reliable Data Protocol (RDP)," Proceedings of the 1987 
Summer USENIX Conference, pp. 367 - 379, Phoenix, Ariz. 

Partridge, C. 1993. ^" Jacobson on TCP in 30 Instructions," Message-ID 
«19935ep8.213239.28902 (sics.se», Usenet, comp.protocols.tcp-ip Newsgroup (Sept.). 


说 明了 一 个 由 Van Jacobson 开 发 的 TCP/IP 的 研究 实现 ， 它 把 在 一 个 RISC 系 统 上 的 

TCP 分 组 接收 处 理 减 少 到 30 条 指令 。 

Partridge, C., and Hinden, R. 1990. "Version 2 of the Reliable Data Protocol (RDP),” RFC 
1151, 4 pages (Apr.). 

Partridge, C., Mendez, T., and Milliken, W. 1993. “Host Anycasting Service,” RFC 1546, 9 
pages (Nov.). 

Partridge, C., and Pink, S. 1993. “A Faster UDP,” IEEE/ACM Transactions on Networking, vol. 
1, no. 4, pp. 429 - 440 (Aug.). 


说 明 对 Berkeley 源 代码 实现 的 改进 ， 它 可 以 把 UDP 性 能 提高 30%， 


Paxson, V. 1994. Private Communication. 

Perlman, R. 1992. Interconnections: Bridges and Routers. Addison-Wesley, Reading, Mass. 

Piscitello, D. M., and Chapin, A. L. 1993. Open Systems Networking: TCP/IP and OSI. Addison- 
Wesley, Reading, Mass. 

Plummer, D. C. 1982. "An Ethernet Address Resolution Protocol," RFC 826, 10 pages (Nov.). 

Postel, J. B., ed. 1981a. "Internet Protocol, ^ RFC 791, 45 pages (Sept.). 

Postel, J. B. 1981b. "Internet Control Message Protocol,” RFC 792, 21 pages (Sept.). 

Postel, J. B., ed. 1981c. "Transmission Control Protocol," RFC 793, 85 pages (Sept.). 

Postel, J. B. 1981d. "Service Mappings," RFC 795, 4 pages (Sept.). 

Postel, J. B., and Reynolds, J. K. 1988. "Standard for the Transmission of IP Datagrams over 
IEEE 802 Networks," RFC 1042, 15 pages (Apr.). 

Rago, S. A. 1993. UNIX System V Network Programming. Addison-Wesley, Reading, Mass. 

Reynolds, J. K., and Postel, J. B. 1994. "Assigned Numbers," RFC 1700, 230 pages (Oct.). 

Rijsinghani, A. 1994. "Computation of the Internet Checksum via Incremental Update," RFC 


Ax 901 


1624, 6 pages (May). 
对 RFC 1141 的 更 新 [Mallory and Kullberg 1990], 


Romkey, J. L. 1988. "A Nonstandard for Transmission of IP Datagrams Over Serial Lines: SLIP,” 
RFC 1055, 6 pages (June). 

Rose, M. T. 1990. The Open Book: A Practical Perspective on OSI. Prentice-Hall, Englewood 
Cliffs, N. J. 

Salus, P. H. 1994. A Quarter Century of Unix. Addison-Wesley, Reading, Mass. 

Sedgewick, R. 1990. Algorithms in C. Addison-Wesley, Reading, Mass. 

Simpson, W. A. 1993. "The Point-to-Point Protocol (PPP)," RFC 1548, 53 pages (Dec.). 

Sklower, K. 1991. "A Tree-Based Packet Routing Table for Berkeley Unix," Proceedings of the 
1991 Winter USENIX Conference, pp. 93 - 99, Dallas, Tex. 

Stallings, W. 1987. Handbook of Computer-Communications Standards, Volume 2: Local Network 
Standards. Macmillan, New York. 

Stallings, W. 1993. Networking Standards: A Guide to OSI, ISDN, LAN, and MAN Standards. 
Addison-Wesley, Reading, Mass. 

Stevens, W. R. 1990. UNIX Network Programming. Prentice-Hall, Englewood Cliffs, N. J. 

Stevens, W. R. 1992. Advanced Programming in the UNIX Environment. Addison-Wesley, 
Reading, Mass. 

Stevens, W. R. 1994. TCP/IP Illustrated, Volume 1: The Protocols. Addison-Wesley, Reading, 
Mass. 


本 系列 的 第 1 卷 ， 它 对 Internet 协 议 做 了 全 面 的 介绍 。 


Tanenbaum, A. S. 1989. Computer Networks, Second Edition. Prentice-Hall, Englewood Cliffs, N. J. 

Topolcic, C. 1990. "Experimental Stream Protocol, Version 2 (SY-II),” RFC 1190, 148 pages 
(Oct.). 

Torek, C. 1992. "Re: A Problem in Bind System Call," Message-ID «27240 dog.ee.lbl.gov», 
Usenet, comp.unix.internals Newsgroup (Nov.). 

Waitzman, D., Partridge, C., and Deering, S. E. 1988. "Distance Vector Multicast Routing 
Protocol,” RFC 1075, 24 pages (Nov.). 


